Hadoop
BuerAkun1024
不求精专,只求记录
展开
-
1. WordCount在Hadoop分布式集群中的实现
运行环境:CentOS-7.6-Minimal * 3 由Vmware平台搭建三台主机对应IP地址:192.168.239.100 hadoop100 192.168.239.101 hadoop101 192.168.239.102 hadoop102环境:hadoop-2.7.7 + JDK-8-251.原创 2020-06-11 19:51:24 · 681 阅读 · 0 评论 -
2. TeraSort在Hadoop分布式集群中的运行
2. TeraSort**1TB排序通常用于衡量分布式数据处理框架的数据处理能力。**Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。2.1 算法思想解决大规模数据排序问题首先想到的是分而治之的策略,但是这在Hadoop中并不适用,因为,尽管map可以并行,但是这在reduce阶段并不能做到,于是Hadoop官方提出了TeraSort排序算法,这个算法在Hadoop的源码中。为了提高reduce阶段的并行度,TeraS原创 2020-06-11 19:46:18 · 661 阅读 · 0 评论 -
3. PageRank在Hadoop分布式集群中的实现
3. PageRankPageRank:网页级别,Google专利技术。是Google用于标识网页的等级和重要性的一种方法。源程序来自github,后文有链接3.1 算法思想PageRank是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。PageRank用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。PageRank实现了将链接价值概原创 2020-06-11 19:12:55 · 633 阅读 · 2 评论 -
单机模式运行hadoop,来自《Hadoop权威指南》
使用Hadoop来分析数据使用Mapreduce规范进行编程,本地测试后部署到集群上两个阶段:两个阶段均以键值对作为输入、输出。键是某一位置相对于文件起始位置的偏移量Map阶段:数据准备去除已损数据,筛掉缺失的、可疑的、错误的数据。提取年份和气温信息,并将其作为输出。map函数输出经过MapReduce框架处理后,发送到reduce函数。Reduce阶段:算法设计找出每年的最高气温。基于键值进行排序和分组,输入:键是年份,值是当年所有气温。输出:(年,当年最高气温)原创 2020-06-04 18:03:10 · 176 阅读 · 0 评论