大数据
文章平均质量分 85
奋起直追CDS
这个作者很懒,什么都没留下…
展开
-
Apache Spark入门级摘要
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。1....转载 2018-03-19 13:39:40 · 4334 阅读 · 0 评论 -
MapReduce原理
MapReduce是一个分布式并行计算引擎,基于它写出来的应用程序能够运行在由上千个机器组成的大型集群上,并以一种可靠、容错、并行的方式处理TB级别的数据集。-一、编程模型这里我们以 WordCount 为实例: 有一批文件,规模为 TB 级或者 PB 级,如何统计这些文件中所有单词出现的次数。-很理所应当的一个想法是,先统计每个文件中单词的频次,再合并累加不同文...原创 2018-03-27 01:10:10 · 394 阅读 · 0 评论 -
海量数据处理
1、 海量日志数据,提取出访问次数最多的IP 2^10 = 1024 = 1k 千 2^20 = 1M 百万 2^30 = 1G 十亿 2^32 = 4G传统方法:分治 + Hash(1)一行一行处理日志,提取出IP,并对IP进行Hash取1024的模,也就是将 2^32 = 4G 个IP 分散到 1024 个小文件中,每个文件中包...原创 2018-03-27 14:23:01 · 337 阅读 · 0 评论