大数据相关
文章平均质量分 91
大数据相关
master-dragon
weixin:dwl_1270530306
展开
-
大文本文件(接近7GB): 统计频数,Top K问题求解(二)
目录说明原始输入word count MR & 输出输出MR日志TopK 求解输入输出附:Java代码说明本文是接着上一篇博文:大文本文件(接近7GB): 统计频数,Top K问题求解,用Hadoop mapreduce 处理求解说明,标题沿用了上一篇的原始输入5.6G的原始txt数据,hdfs的block size=128MB,原始文件被分成了48个blockword coun...原创 2020-05-01 17:32:23 · 486 阅读 · 0 评论 -
HBase的简单基础使用
Hbase 基础学习教程 http://www.yiibai.com/hbase/HBase的表结构转自 作者:JinJ https://www.cnblogs.com/JingJ/p/4521245.htmlRowKey: 行键ColumnFamily: 列族, HBase引入的概念:ColumnTimeStamp:在每次跟新数据时,用以标识一行数据的不同版本(事实上,TimeSta转载 2017-11-17 12:56:13 · 473 阅读 · 0 评论 -
大文本文件(接近7GB): 统计频数,Top K问题求解
实践如下:产生了一个1G行,每行一个[0,100000]区间的整数top n 求解:大文件分成小文件把这个7G左右的大文件,按照读入数字的hashcode值分成1024个小文件(每个文件平均最大就7M左右)小文件统计对每个小文件,可以用堆,hash,内部排序等等方法进行处理;原创 2017-11-14 15:35:54 · 3979 阅读 · 2 评论