- 博客(54)
- 资源 (1)
- 收藏
- 关注
原创 Starrocks(2.0.1) vs clickhouse (20.4.2.9)集群 SSB性能测试对比
Starrocks(2.0.1) vs clickhouse (20.4.2.9)集群 SSB性能测试对比Star schema benchmark(以下简称SSB)是学术界和工业界广泛使用的一个星型模型测试集(来源[论文](https://www.cs.umb.edu/~poneil/StarSchemaB.PDF)),通过这个测试集合可以方便的对比各种OLAP产品的基础性能指标。
2022-02-24 12:24:32 2452
原创 starocks集群 实时日志分析
starocks 实时日志分析日志实时同步技术路径filebeat+kafka+starrocksfilebeat 部署# 下载安装包https://www.elastic.co/cn/downloads/beats/filebeat# tar解压tar -zvxf filebeat-8.0.0-linux-x86_64.tar.gz配置文件## 新建配置文件cp filebeat.yml filebeat-kafka.ymlvim filebeat-kafk
2022-03-05 11:56:57 2946 1
原创 Clickhouse(20.4.2.9) SSB性能测试
SSB(Star Schema Benchmark)是麻省州立大学波士顿校区的研究人员定义的基于现实商业应用的数据模型,业界公认用来模拟决策支持类应用,比较公正和中立。
2022-02-24 10:36:29 1676
原创 addax (原datax)之udf函数使用
addax udf函数的使用内置函数dx_substr¶dx_substr(idx, pos, length) -> str参数idx: 字段编号,对应record中第几个字段pos: 字段值的开始位置length: 目标字段长度返回: 从字符串的指定位置(包含)截取指定长度的字符串。如果开始位置非法抛出异常。如果字段为空值,直接返回(即不参与本transformer)dx_pad¶dx_pad(idx, flag, length, chr)参数idx: 字段编
2022-02-18 14:37:04 1003
原创 jar包冲突完整解决方案
背景 开发flink程序,引入了Hadoop-hdfs相关包用于访问hdfs,程序开发完成后,本地测试无任何问题,提交上线,运行jar提示如下错误:java.lang.NoSuchMethodError: org.apache.commons.cli.Option.builder(Ljava/lang/String;)Lorg/apache/commons/cli/Option$Builder; at org.apache.flink.runtime.entrypoint.pars...
2021-07-23 14:24:33 2946
原创 windows本地idea配置hive_site.xml,路径格式
<property> <name>hive.aux.jars.path</name> <!--<value>file:///opt/cloudera/parcels/PHOENIX-5.0.0-cdh6.2.0.p0.1308267/lib/phoenix/phoenix-5.0.0-cdh6.2.0-hive.jar</value>--> <value>file:/E:/csot/code/csot-spar.
2021-04-16 09:17:27 420
原创 Spring Cloud为什么会出现?
单体应用的缺陷 复杂性高,所有的业务代码都集成再一个war包,各模块的关系混乱,代码质量难以管理 技术债务,随着业务模块的不断增加、开发人员的更迭,会形成不出问题不进行代码优化的技术债务 部署频率低,只要有新代码更新,必须重新部署 可靠性差,可能某一模块的bug会影响整个应用 扩展能力受限,单体应用只能进行整体进行扩展,无法根据业务模块的进行扩展 技术更新受限,单体应用程序的技术往往...
2019-11-18 17:26:15 332
转载 理解Restful API
作者:覃超链接:https://www.zhihu.com/question/28557115/answer/48094438来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。我觉得问题很好:REST -- REpresentational State Transfer 直接翻译:表现层状态转移。这个中文直译经常出现在很多博客中。尼玛谁听得懂“表现层状态转...
2019-11-18 15:39:22 210
原创 hiveSQl学习
语法:https://blog.csdn.net/hguisu/article/details/7256833Hive入门及常用指令:https://blog.csdn.net/u014236541/article/details/78245924外部表与内部表区别:https://blog.csdn.net/qq_36743482/article/details/78393678创建...
2019-08-02 11:45:57 529
原创 数据仓库ETL流程
ETL过程:origin:数据来源,文件+数据库,origin->tmp(中间层)ods层:数据源层,将origin数据导入到系统的层,tmp->odsdw层:数据仓库,将ods层数据数据整合层,ods->dwdm:数据集市,支持外部应用...
2019-08-02 11:07:31 2820
原创 linux常用命令
链接 硬链接:ln 源文件 目标文件,一个源文件可以有多个硬链接,即可以通过硬链接直接寻找到源文件,类似源文件的拷贝,删除源文件,不影响硬链接。 软连接:ln -s 源文件 目标文件,指向源文件的快捷方式,删除源文件,软连接会失效。 删除影响: 删除源文件:软连接失效,硬链接不受影响 删除硬链接:源文件不受影响,软连接不受影响 删除软连接:源文件不受影响 删除源文...
2019-08-02 10:17:28 177
原创 为什么要使用泛型?
出现原因:泛型是在jdk1.5新增的技术,其是为解决代码通用性而出现的。例如:假设我现在要处理int、String两个类型的数据,其处理的逻辑是一模一样,即除了类型不同,其他完全一样。简单的做法即:分别写出int对应的处理代码,string 对应的处理代码,但是这个解决方案很蠢,那有没有更好的解决方案呢?使用object声明类型,因为object是所有类的父类,因此可以接受所有的类型;使用该方法确...
2018-07-06 14:16:39 1137
原创 InnoDB与MyIsAM锁问题
MyIsAM与InnoDB特点比较MyIsAM InnoDB存储限制无限制 64TB 锁机制 表锁行锁、表锁B树索引 是 是Hash索引全文索引支持集群索引不支持支持数据可压缩 支持不支持空间使用率低 高内存使用率低高批量插入速度 高低外键不支持支持事务安全 不支持支持InnoDB:支持事务,行锁,B树索引、集群索引、支持外键、批量插入数据慢,数据可压缩My...
2018-06-25 17:02:44 1227 1
转载 一次完整的http请求
转载:HTTPS://www.cnblogs.com/engeng/articles/5959335.html通过HTTP请求响应过程了解HTTP协议首先了解一次完整的HTTP请求到响应的过程需要的步骤1. 域名解析 2. 发起TCP的3次握手 3. 建立TCP连接后发起http请求 4. 服务器端响应http请求,浏览器得到html代码 5. 浏览器解析html代码,并请求html代码中...
2018-05-23 14:48:01 482
原创 和最大的子串
#include <iostream>using namespace std;#include <vector>#include <algorithm>int main() { vector<int> arry = { 1, -3, 9, 10, -2, 3, -6, 5 }; int sum = 0; int maxSum...
2018-04-13 17:23:10 250
转载 java多线程编程
林炳文Evankaka原创作品。转载请注明出处http://blog.csdn.net/evankaka 写在前面的话:此文只能说是java多线程的一个入门,其实Java里头线程完全可以写一本书了,但是如果最基本的你都学掌握好,又怎么能更上一个台阶呢?如果你觉得此文很简单,那推荐你看看Java并发包的的线程池(Java并发编程与技术内幕:线程池深入理解),或者看这个专栏:Java并...
2018-04-11 16:40:33 138
原创 MyISAM和InnoDB的区别
1. InnoDB支持事务,MyISAM不支持,对于InnoDB每一条SQL语言都默认封装成事务,自动提交,这样会影响速度,所以最好把多条SQL语言放在begin和commit之间,组成一个事务; 2. InnoDB支持外键,而MyISAM不支持。对一个包含外键的InnoDB表转为MYISAM会失败; 3. InnoDB是聚集索引,数据文件是和索引绑在一起的,必须要有主键,通过主键索引效率很高...
2018-04-08 15:23:15 470
转载 十大经典排序算法(动图演示)
转载:https://www.cnblogs.com/onepixel/articles/7674659.html十大经典排序算法(动图演示)0、算法概述0.1 算法分类十种常见排序算法可以分为两大类:非线性时间比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破O(nlogn),因此称为非线性时间比较类排序。线性时间非比较类排序:不通过比较来决定元素间的相对次序,它可以突破基于比...
2018-04-08 10:30:10 1891
转载 对象的声明与实例化
Java 在定义类时,只是通知编译器需要准备多大的内存空间,并没有为它分配内存空间。只有用类创建了对象后,才会真正占用内存空间。1. 声明对象 对象的声明和基本类型的数据声明在形式上是一样的:类名 对象名;对象名也是用户标识符,和基本类型的变量遵循同样的命名规则和使用规则。 声明一个变量,并不会分配一个完整的对象所需要的内存空间,只是将对象名所代表的变量看成是一个引用变量,并为它分配所需内存空间,...
2018-03-30 13:34:08 1564
转载 Object常见方法
版权声明:转载请注明出处。作者:两仪织,博客地址:http://blog.csdn.net/u013894427 https://blog.csdn.net/u013894427/article/details/53468038目录(?)[+]前言Java语言不同于C++语言,是一种单根继承结构语言,也就是说,Java中所有的类都有一个共同的祖先。这个祖先就是Object类。object类的结构 ...
2018-03-30 13:04:55 226
原创 java与c/C++区别
java语言的优点:纯面向对象语言平台无关、一次编译,到处运行。Java提供了很多内置的类提供了web应用的开发具有较好的安全性健壮性java与c++的区别:java为解释性语言,,其运行过程为:源代码先编译为字节码文件,然后有jvm进行执行。c++为编译性语言,源代码会被编译成可执行的二进制代码,java中不存在局部变量和全局变量。c++兼具面向对象和面向过程的特点,存在局部变量和全局变量c++...
2018-03-30 12:14:55 246
转载 Redis的那些最常见面试问题
Redis的那些最常见面试问题:https://www.cnblogs.com/Survivalist/p/8119891.html3.使用redis有哪些好处? (1) 速度快,因为数据存在内存中,类似于HashMap,HashMap的优势就是查找和操作的时间复杂度都是O(1) (2) 支持丰富数据类型,支持string,list,set,sorted set,hash (...
2018-03-26 16:54:56 1163
转载 Java中的String,StringBuilder,StringBuffer三者的区别以及 String 不变性
出处:点击打开链接Java中的String,StringBuilder,StringBuffer三者的区别 最近在学习Java的时候,遇到了这样一个问题,就是String,StringBuilder以及StringBuffer这三个类之间有什么区别呢,自己从网上搜索了一些资料,有所了解了之后在这里整理一下,便于大家观看,也便于加深自己学习过程中对这些知识点的记忆,如果哪里有误,恳请指正。 这三...
2018-03-23 13:59:29 147
原创 HashMap 和hashTable区别
对外的接口(API)两个类的继承体系有些不同。虽然都实现了Map、Cloneable、Serializable三个接口。但是HashMap继承自抽象类AbstractMap,而HashTable继承自抽象类Dictionary。其中Dictionary类是一个已经被废弃的类,所有两者的功能一样,都提供键值映射的服务,可以增、删、查、改键值对,可以对建、值、键值对提供遍历视图。支持浅拷贝,支持序列化...
2018-03-22 14:18:30 141
转载 java网络编程
TCP UDPTCP与UDP基本区别 1.基于连接与无连接 2.TCP要求系统资源较多,UDP较少; 3.UDP程序结构较简单 4.流模式(TCP)与数据报模式(UDP); 5.TCP保证数据正确性,UDP可能丢包 6.TCP保证数据顺序,UDP不保证 UDP应用场景: 1.面向数据报方式 2.网络数据大多为短消息 3.拥有大量Client 4.对数据安全性无特殊...
2018-03-22 10:58:10 192
原创 java基础
Java 重写(Override)与重载(Overload)方法的重写规则参数列表必须完全与被重写方法的相同;返回类型必须完全与被重写方法的返回类型相同;访问权限不能比父类中被重写的方法的访问权限更低。例如:如果父类的一个方法被声明为public,那么在子类中重写该方法就不能声明为protected。父类的成员方法只能被它的子类重写。声明为final的方法不能被重写。声明为static的方法不能被...
2018-03-21 17:30:50 205
翻译 第十一章 总结
在这一章中,我们学会了怎样构建序列学习模型。我们弄清楚了怎样处理时间序列使用Pandas。我们讨论了怎样分割时间序列数据和执行各种操作。我们学游戏了怎样提取时间序列的各种状态。我们学习了HMM并使用它构建了一个系统。 我们讨论了怎样使用CRF来分析字母序列。我们学习了怎样使用各种技术分析股票数据。在下一章中,我们将学习语音识别并构建一个自动识别系统...
2018-03-09 16:52:07 220
翻译 人工智能:python 实现 第十一章 股票市场分析
股票市场分析在这一节中,我们将使用HMM分析股票数据。这个例子的数据已经打上了时间戳。我们将使用matplotlib包中的数据。数据集包含各个公司整年的股票数据。HMM是生成模型,他能分析时间序列数据以及提取其底层结构。我们将使用这个模型分析变化的股票价格,并输出结果。创建新的python文档,输入一下代码:import datetimeimport warningsimport numpy ...
2018-03-09 16:46:40 2711
翻译 人工智能:python 实现 第十一章 使用CRF识别字母序列
使用CRF识别字母序列 条件随机场算法(CRFs)是一个被频繁用来分析结构化数据的概率模型。我们使用这些模型对序列数据打标签和分段。值得注意的是,CRFS是判别模型。这是与HMMS相反的,HMMS是一个生成模型。 我们可以在标记的测量序列上定义条件概率分布.我们使用这个框架构建CRF模型。在HMMS中,我们必须在观察序列和标签上定义一个联合分布。 CRFS...
2018-03-09 15:27:23 1054
原创 csp算法题解
#include <iostream> #include <vector>#include <algorithm>using namespace std;int main() { int N = 0; cin >> N; vector<int> myvec; /*int *a = (int *)malloc(siz...
2018-03-05 21:14:32 3374
翻译 人工智能:python 实现 第十一章,使用隐马尔科夫模型生成数据
使用隐马尔科夫模型生成数据 隐马尔科夫模型是一个强大的分析时间序列数据的分析工具。假定被建模的系统是带有隐藏状态的马尔可夫过程,这意味着底层系统可以是一组可能的状态之一,系统经历一系列的状态转换,从而产生一系列输出。我们仅能观察输出,而无法观测状态,因为这些状态被隐藏了。我们的目标是对这些数据建模,以便我们能推断未知数据的状态转换。 为了理解HMMs,让我们是靠一下例子,一个销售人员因...
2018-03-05 16:43:00 3387 4
翻译 人工智能:python 实现 第十一章,从时间序列数据中提取统计信息
从时间序列数据中提取统计信息 为了从时间序列中提取有意义的数据,我们必须从时间序列数据中提取统计信息。这些统计信息可以是数据平均值、方差、相关性、最大值、最小值等等。这些统计数据必须通过窗口进行循环计算。我们使用预先被定义的窗口大小,持续计算这些数据。当这些统计数据被可视化以后,我们将发现有区的模式。那如何从时间序列数据中提取这些统计信息呢? 创建一个新的python文档,完整代码如下:...
2018-03-05 14:04:10 1893
翻译 人工智能:python 实现 第十一章,操作时间序列
时间序列的操作 pandas库允许我们高效的操作时间序列,可执行各种操作,例如过滤和添加。你能设置一些条件,pandas将过滤数据集并返回正确的数据子集。你也能将两个时间序列变量相加。这允许我们快速的构建各种应用,而无需重复各种没有意义的操作。 构建一个新的Python文档,完整代码如下:import numpy as npimport pandas as pdimport...
2018-03-05 11:26:49 453
原创 c++学习笔记
问题一:如何连续输入N个数字,数字之间以空格分隔,以回车结束,使用Vector<int>存储。 vector<double> v1; char t; double count; double temp; while (cin >> temp) { v1.push_back(temp); if (getchar() == '\n') //遇回车结束...
2018-03-04 17:15:07 256
翻译 人工智能:python 实现 第十一章,时间序列数据分片
时间序列数据分片现在我们知道如何处理时间序列,让我们看看如何进行时间序列份片。分片的过程值得是将数据分成各种子区间并提取相关的信息。当你处理时间序列数据集时,这是非常有用的。我们使用时间戳来进行数据分片,而不是索引。创建一个python 文件,代码如下import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfr...
2018-02-28 20:58:52 899
翻译 人工智能:python 实现 第十一章,使用Pandas处理时间序列数据
使用Pandas处理时间序列数据 让我们开始学习如何使用Pandas处理时间数据。在本节中,我们会将一队数字转换为时间序列和可视化。Pandas提供了添加时间戳,组织数据等选项,之后可以高效的操作它。 创建一个新的python文档,完整代码如下:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt...
2018-02-28 20:28:58 599
原创 关于python第三方库安装失败的解决方法
使用.whl手动安装,以管理员身份运行pip install 包所在路径+包名参考:http://blog.csdn.net/u010189457/article/details/54962873
2018-02-28 19:41:38 5230
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人