2019年07月_我的海_

12月 11月 09月 08月 07月 04月 03月

原创 10.1 spark-sql 10亿级数据交互式秒级查询可行性

当前版本:saprk2.4 cdh 数据演示为10亿,41列sparksql提供了类sql的标准,支持数学函数,聚合函数,时间函数,字符串函数,支持已经很完善了参考:https://spark.apache.org/docs/2.4.0/api/sql/index.htmlOne use of Spark SQL is to execute SQL queries. Spark SQL...

2019-07-25 14:13:25 3942 2

原创 12.4 datax mongodb写入到hdfs

1.编辑模板{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "ad...

2019-07-31 19:29:07 1254

原创 12.3 datax MongoDB的数据导入MySQL

{ "job": { "content": [ { "reader": { "name": "mongodbreader", "parameter": { "address": ["12...

2019-07-31 19:26:50 2006

原创 12.2.datax hdfs数据写入mysql

同16编辑后的模板{ "job": { "content": [ { "reader": { "name": "hdfsreader", "parameter": { "column...

2019-07-31 17:42:38 789

原创 12.1 datax的使用mysql to hdfs

参考阿里巴巴开源地址https://github.com/alibaba/DataX与sqoop不同的是datax支持非关系数据库的导入和导出DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入，目前支持数据如下图，详情请点击：DataX数据源参考指南类型数据源 Reader(读) Writer(写) ...

2019-07-31 17:26:49 332

原创 11.4 kudu列式存储和hdfs+parquet列式存储impala查询效率对比 1亿数据

演示对比1亿条数据(41列)列式存储和效率kudu和hdfs+parquet列式对比当前设置'kudu.num_tablet_replicas' = '1',有一台过期了,内核1, 机械盘Impala Daemon 内存限制 2g1.kudu存储转态:2.执行插入1亿数据1h16mmin3.占用磁盘空间:kudu 5.45ghdfs+parquet...

2019-07-31 12:32:37 1008 1

原创 11.3 HDFS缓存池在Impala中的使用

参考:cdh6.1,1版本https://www.cloudera.com/documentation/enterprise/6/6.1/topics/impala_perf_hdfs_caching.html#hdfs_caching1.创建缓存池2.cache执行之后开始慢慢缓存相比于spark,对比后就知道saprk有多优秀了这种cache的优点是可以自动...

2019-07-25 18:55:05 354 4

原创 11.2.impala优化

执行compute初始状态:-----------------------执行后缓存了几个较为常用的 count 值连接查询优化速度非常大当一个内容表或分区明显变化，重新计算统计相关数据表或分区。因为行和不同值的数量差异可能导致impala选择不同的连接顺序时，表中使用的查询...

2019-07-25 18:21:29 106 1

原创 11.1.impala 10亿数据的的测试与优化演示

impala3.1 阿里云低配数据10.5亿1.测试表10.5亿分区表(每个分区1亿数据),格式parquet第一次count查询6秒,第二次很快distinctgroup bywhere实现秒查10亿数据该条件数据75475530条条数少的可以实现直接毫秒级查询2.测试表1亿同上distinctgroup ...

2019-07-25 16:27:05 659

query-impala-2000.txt

豆瓣用户广播爬取备份

2019-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人