hadoop
文章平均质量分 89
程杉耘朵
笨蛋一小枚
展开
-
hadoop的安装与伪分布式配置
这两天一直在研究hadoop,对于我这个对Linux接触很少的人来说,完全是蒙蔽的。原本想找些学习材料(据说hadoop实战和hadoop权威指南都蛮不错的),可是。。。 根本看不懂!因此,决定先在网上找资料,从下载安装开始。 虽然现在还在上班,但是我总算已经把hadoop的分布式搭建好了。迫不及待的来记录分享。 对于我这个新手,一起都从零开始。原创 2017-05-15 15:14:31 · 351 阅读 · 0 评论 -
初识hadoop
从搭建完hadoop和安装好eclipse之后,我就开始了《Hadoop实战》这本书的学习。今天的笔记就是初识hadoop,主要是各种守护进程的作用,区别,还有hadoop中配置文件(这里记的是分布式的配置)的内容。 守护进程: 守护进程主要分为——NameNode(名字节点)、DataNode(数据节点)、SecondaryNameNode原创 2017-05-15 15:14:40 · 223 阅读 · 0 评论 -
剖析MapReduce程序
1.典型MapReduce程序的每个阶段2.hadoop的数据类型 MapReduce框架提供了一种序列化键/值对的方法,只有那些支持这种序列化的类能够在这个框架中充当键或值。 也可以自定义数据类型,只要实现了Writable或WritableComparable接口,WritableComparable接口是Writable和java.long.原创 2017-05-15 15:14:47 · 275 阅读 · 0 评论 -
MapReduce中的Combiner类
Combiner类是用于提高MapReduce的性能,作用在Map与Reduce之间,减少Mapper的输出和Reduce的压力。图1 基本流程例:计算出apat63_99.txt中,每个国家专利声明的平均数图2原始数据 在这份数据中,每一条都记录了专利号、批准年、批准日、申请年、第一发明人国家、第一发明人所在州、专利权人、专利权人类型、原创 2017-05-15 15:14:58 · 911 阅读 · 0 评论 -
Hadoop的读和写
Mapreduce处理原则:将输入数据分割成块(称输入分片),在各台计算机上并行处理。HDFS按块存储文件,并分布在多台计算机上,如果每个分片/块都由它所驻留的机器处理,就实现了并行。HDFS再在多个节点上复制数据块,MapReduce可以选择任意一个包含分片/数据库副本的节点。InputFormat Hadoop分割与读取输入文件的方式,被定义在原创 2017-05-15 15:14:49 · 4039 阅读 · 0 评论 -
计算不同引用次数的专利数目
在上一篇中,对专利的引用次数进行了统计,有了如下的数据。 这一次,要对这个数据进行统计,来算出被引用过1次的专利的个数、被引用过2次专利的个数、3次的、4次的....代码:package org.apache.hadoop.pr;import java.io.IOException;import java.util.Iterator;i原创 2017-05-15 15:14:55 · 2378 阅读 · 0 评论 -
编写MapReduce基础程序
专利数据 MapReduce基础程序的练习主要是对《专利引用》和《专利描述》两份数据进行分析。 下载地址:http://www.nber.org/patents/→下载acite75_99.zip和apat63_99.zip→在压缩包中提取cite75_99.txt(专利引用,如图1)和apat63_99.txt(专利描述,如图2)图1专利引原创 2017-05-15 15:14:52 · 758 阅读 · 0 评论 -
hadoop的基本命令、java程序处理hd…
基本命令:hadoop fs -命令 (这里命令一般和Linux中的命令一样)※这里一定要在~/.bashrc中进行配置,不然不会生效,在配置文件中加上下面语句export HADOOP_HOOM=/usr/local/hadoop (这要写自己hadoop的安装路径)export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$原创 2017-05-15 15:14:43 · 1958 阅读 · 0 评论