hadoop
学习一些大数据相关的知识
jeff.sheng
一只没有梦想的咸鱼
展开
-
hadoop集群环境搭建
HDFS设计思想DataNode:用来在磁盘上存储数据HDFS 数据存储单元( block )1 文件被切分成固定大小的数据block块 •默认数据块大小为 64MB(hadoop1.x版本64M,2.x为128M) ,可配置 •若文件大小不到 64MB ,则单独存成一个block 比如:一个120M的文件会分成64M+56M两个block块,虽然第二个分割不到64...原创 2018-05-06 23:00:15 · 1425 阅读 · 0 评论 -
案例4-使用hadoop-mapreduce进行PageRank计算
什么是pagerankPageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的 PageRank实现了将链接价值概念作为排名因素。计算环境Hadoop-2.5.2 四台主机 两台NN的HA 两台RM的HA 离线计算框架MapReduce 算法原理(1)入链...原创 2018-09-27 23:28:01 · 739 阅读 · 0 评论 -
案例2-mapreduce统计每年中每个月气温排行
如图所示我们要计算每年中每个月气温倒序排行,在这个例子中我们输入文件中的年份只有3个,所以例子中的reduceTask个数是3个。如果不确定年份的个数,就不能使用年份维度作为reduceTask个数。首先,上传weather文件到/usr/input下:执行任务:分别查看/usr/output/weather下的三个文件内容:1949年:1950年:19...原创 2018-09-22 16:00:24 · 2238 阅读 · 0 评论 -
Hadoop-Mapreduce本地Windows和服务端Linux调试
Mapreduce本地Windows和服务端Linux调试本地windows调试 本地测试环境(windows): 在windows的hadoop目录bin目录有一个winutils.exe 在windows下配置hadoop的环境变量 配置完环境变量可能需要重启windows系统,如果不想...原创 2018-09-22 00:57:26 · 675 阅读 · 0 评论 -
Hadoop-MapReduce计算案例1:WordCount
案例描述:计算一个文件中每个单词出现的数量代码:package com.jeff.mr.wordCount;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.ha...原创 2018-09-22 00:43:59 · 453 阅读 · 0 评论 -
hadoop之MapReduce架构及Yarn环境搭建
MapReduce架构基于hadoop2.0架构是运行于YARN环境的。参考:http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YARN.html YARN环境-主从结构整个yarn环境是MapReduce的运行环境主节点Resource Manager负责调度,是Resource Ma...原创 2018-09-21 11:30:36 · 419 阅读 · 0 评论 -
Hadoop之MapReduce的移动计算模型
MapReduceHadoop核心组件MR-MapReduce企业80以上使用MapReduce,未来可能替代Mapreduce的是spark,spark是2013年出现,时间短,技术储备不够是最大的原因。 MapReduce设计理念移动计算,而不是移动数据 何为分布式计算Hdfs的数据全部是分布式存放,而MapReduce使用的就是Hdfs上存放的数据。 计算框架...原创 2018-09-21 10:39:18 · 2326 阅读 · 0 评论 -
eclipse安装Hadoop插件
我的eclipse版本:Eclipse IDE for Java DevelopersVersion: Photon Release (4.8.0)Build id: 20180619-1200OS: Windows 7, v.6.1, x86_64 / win32Java version: 1.8.0_151 首先我们安装ant环境:到官网(http://ant.apa...原创 2018-09-19 13:29:34 · 2172 阅读 · 2 评论 -
案例3-使用hadoop-mapreduce来统计并进行好友推荐
常见的需求如QQ中的推荐好友,例如下图:我们想给如花推荐好友,途中相邻连线的人之间是彼此直接好友的关系,那么我们推荐的规则是同一对”好友的好友”(简称FOF)出现的次数,比如:如花的好友的好友有“小明”“李刚”“凤姐”,而FOF关系如下: 如花 小明 李刚 凤姐那么对于如花来说,小明,李刚,凤姐...原创 2018-09-24 00:52:06 · 1013 阅读 · 0 评论 -
Hadoop HA高可用集群搭建
之前我们搭建了hdfs集群环境,但是这个存在单点问题和内存限制,并不是高可用的,这一节我们就来搭建高可用HDFS集群。亲自试验过可以做到单点故障切换!HDFS2.x HA解决HDFS1.0中单点故障和内存受限问题:随着数据越来越多,NameNode的内存使用会暴增而受限,且一个集群中只有一个NameNode,一旦宕机则集群不可用。 解决NameNode单点故障: ...原创 2018-09-15 17:10:11 · 1141 阅读 · 0 评论 -
案例5-挖掘微博广告高权重词条
微博内容(如图):ID content公式:TF:词条在某个微博中出现的词频(出现次数).N:微博总数DF:词条在多少个微博中出现过案例用到四个reduceTask,下标计数从0开始,三个统计词频TF,一个统计微博总数N。 FirstMapper.java对输入文件的每行记录微博内容进行分词,统计微博词频TF及微博总数,每个词条输出词频数1;每个微博输出一...原创 2018-10-17 23:41:03 · 608 阅读 · 0 评论