大数据
文章平均质量分 78
tmac1027
这个作者很懒,什么都没留下…
展开
-
Hadoop与Spark技术入门
1 Hadoop系统概述1.1 Hadoop简介Hadoop最初起源于搜索引擎子项目Nutch,是Apache基金会的开源大数据计算平台,其核心组件设计包含有分布式文件系统HDFS及分布式计算框架MapReduce。随着Hadoop项目的开源发展,逐渐扩展成为一个包含Zookeeper、Hive等众多子系统的大数据生态系统。1.2 分布式文件系统HDFSHDFS采用Master/Slave的主从式架原创 2017-09-06 10:53:25 · 1799 阅读 · 0 评论 -
Hadoop与Spark算法分析(三)——矩阵乘法
矩阵乘法的并行计算最早被用于Google提出的PageRank算法中包含的迭代乘法运算,也可高效执行大矩阵间的相乘运算。1. 实验准备由于Hadoop与Spark对于矩阵乘法的实现过程不同,这里分别使用Linux Shell生成随机的对应于Hadoop与Spark算法的输入矩阵文件,其中输入文件名均以“矩阵名_行值_列值”格式命名,执行shell脚本所需要的参数有矩阵的行值,列值以及矩...原创 2017-11-13 19:49:58 · 918 阅读 · 0 评论 -
Hadoop与Spark算法分析(一)——WordCount
WordCount是大数据编程的入门程序,实现对输入文件中每个单词出现次数的统计,可应用于海量文本的词频检索。过程如下图所示: 1. Hadoop实现map过程调用map函数以文件中每行首个字符的偏移量和整行值为输入参数,将值进行单词的拆分,并最终输出(单词,1)的键值对。 reduce过程从各Map端收集得到(单词,列表(1,1,…1))键值对,通过对值列表相加计算单词主键的出现频数原创 2017-10-27 11:03:54 · 1397 阅读 · 0 评论 -
Hadoop与Spark算法分析(二)——排序算法
数据排序是实际任务执行时非常重要的一步,为后续的数据处理打下基础。1. 实验准备本次实验中,每个数据以行的形式保存在输入文件中。其中输入文件通过编写Linux Shell脚本makeNumber.sh随机生成。shell脚本内容如下:#! /bin/bashfor i in `seq 1 $1`do echo $((RANDOM)) >> $2done第1个参数表示输入文件的行数,第2原创 2017-11-06 10:16:11 · 535 阅读 · 0 评论 -
Hadoop与Spark算法分析(四)——PageRank算法
PageRank是用于解决网页重要性排序的关键技术之一,其基于网页之间链接关系构建一个有向图结构,实现各个网页级别的划分。一个网页的PageRank值(后面简称PR值),取决于其他网页对该网页的贡献和,以公式形式表示为,其中U表示所有网页指向网页b的网页集合,L(a)表示网页a的出度,d表示用户浏览一个网页的随机概率,用于解决网页关系间的陷阱问题。根据公式递归计算,各网页的PR值将最终趋于稳定。可以原创 2017-11-21 15:22:01 · 3970 阅读 · 0 评论