- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 10.1 spark-sql 10亿级数据交互式秒级查询可行性
当前版本:saprk2.4 cdh 数据演示为10亿,41列sparksql提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org/docs/2.4.0/api/sql/index.htmlOne use of Spark SQL is to execute SQL queries. Spark SQL...
2019-07-25 14:13:25 3942 2
原创 12.4 datax mongodb写入到hdfs
1.编辑模板{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "ad...
2019-07-31 19:29:07 1254
原创 12.3 datax MongoDB的数据导入MySQL
{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "address": ["12...
2019-07-31 19:26:50 2006
原创 12.2.datax hdfs数据写入mysql
同16编辑后的模板{ "job": { "content": [ { "reader": { "name": "hdfsreader", "parameter": { "column...
2019-07-31 17:42:38 789
原创 12.1 datax的使用mysql to hdfs
参考阿里巴巴开源地址https://github.com/alibaba/DataX与sqoop不同的是datax支持非关系数据库的导入和导出DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图,详情请点击:DataX数据源参考指南类型 数据源 Reader(读) Writer(写) ...
2019-07-31 17:26:49 332
原创 11.4 kudu列式存储和hdfs+parquet列式存储impala查询效率对比 1亿数据
演示对比1亿条数据(41列)列式存储和效率kudu和hdfs+parquet列式对比当前设置'kudu.num_tablet_replicas' = '1',有一台过期了,内核1, 机械盘Impala Daemon 内存限制 2g1.kudu存储转态:2.执行插入1亿数据1h16mmin3.占用磁盘空间:kudu 5.45ghdfs+parquet...
2019-07-31 12:32:37 1008 1
原创 11.3 HDFS缓存池在Impala中的使用
参考:cdh6.1,1版本https://www.cloudera.com/documentation/enterprise/6/6.1/topics/impala_perf_hdfs_caching.html#hdfs_caching1.创建缓存池2.cache执行之后开始慢慢缓存相比于spark,对比后就知道saprk有多优秀了这种cache的优点是可以自动...
2019-07-25 18:55:05 354 4
原创 11.2.impala优化
执行compute初始状态:-----------------------执行后缓存了几个较为常用的 count 值 连接查询优化速度非常大当一个内容表或分区明显变化,重新计算统计相关数据表或分区。因为行和不同值的数量差异可能导致impala选择不同的连接顺序时,表中使用的查询...
2019-07-25 18:21:29 106 1
原创 11.1.impala 10亿数据的的测试与优化演示
impala3.1 阿里云低配 数据10.5亿1.测试表10.5亿分区表(每个分区1亿数据),格式parquet第一次count查询6秒,第二次很快distinctgroup bywhere实现秒查10亿数据 该条件数据75475530条条数少的可以实现直接毫秒级查询2.测试表1亿 同上distinctgroup ...
2019-07-25 16:27:05 659
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人