![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
Bright Huang
这个作者很懒,什么都没留下…
展开
-
java操作Mapreduce实现手机号上行 下行流量统计(有自定义分区规则方法)
java操作Mapreduce实现手机号上行 下行流量统计FlowBean类FlowMapper类FlowReducer类FlowDriver自定义分区规则使用自定义分区FlowDriverMaven依赖数据文件下载链接: https://pan.baidu.com/s/1lHd-Egpas2HR6U0TcsC6EQ 提取码: fffjFlowBean类package flow;import org.apache.hadoop.io.Writable;import java.io.DataIn原创 2020-12-04 16:12:29 · 307 阅读 · 0 评论 -
java实现hdfs文件操作(打印程序运行过程 maven依赖)
在main下面创建resources文件夹1.编辑添加log4j.properties 打印程序运行过程log4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d %p [%c原创 2020-12-04 15:32:39 · 199 阅读 · 0 评论 -
java操作Mapreduce实现reducejoin(CustomerOrder业务)
CustomerOrders类package reduceJointest;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * @Author Bright * @Date 2020/12/3 * @Description */public class CustomerOrders imple原创 2020-12-03 20:14:54 · 114 阅读 · 0 评论 -
大数据概况及Hadoop生态系统(含hdfs架构)
Hadoop1、 Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。Nutch的开发人员完成了相应的开源实现HDFS和MAPRE原创 2020-09-15 20:10:07 · 223 阅读 · 0 评论 -
MapReduce原理及编程(实现wordcount)
MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。MapReduce运行在yarn集群ResourceManagerNodeManager这两个阶段合起来正是MapReduce思想的体现。原创 2020-09-15 19:59:26 · 381 阅读 · 0 评论 -
hadoop学习——分布式资源调度框架YARN
yarn资源调度1.yarn的介绍:yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMaster,原创 2020-09-15 19:46:23 · 295 阅读 · 0 评论 -
hadoop学习--MapReduce 排序和序列化
序列化 (Serialization) 是指把结构化对象转化为字节流反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, 就需要序列化对象成字节流, 反之当要将接收到或从磁盘读取的字节流转换为对象, 就要进行反序列化Java 的序列化 (Serializable) 是一个重量级序列化框架, 一个对象被序列化后, 会附带很多额外的信息 (各种校验信息, header, 继承体系等), 不便于在网络中高效传输. 所以, Hado原创 2020-09-15 19:30:37 · 254 阅读 · 0 评论 -
hadoop学习——分布式应用协调服务ZooKeeper
ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层次的命名空间,都是采用树形层次结构.ZooKeeper 树中的每个节点被称为—个Znode。和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点。但也有不同之处:Znode 兼具文件和目录两种特点。既像文件一样维护着数据、元信息、ACL、 时间戳等数据结构,又像目录一样可以作为路径标识的一部分,并可以具有子 Znode。用户对Znode 具有增、删、改、查等操作(权限允许的情况下)。Znode 存储数原创 2020-09-15 19:07:14 · 213 阅读 · 0 评论 -
hadoop高可用集群环境搭建(ntp的时间同步配置+有zookeeper安装包,完整的高可用配置文件步骤)
没有完成hadoop 3台虚拟机集群搭建的可以先看以下两篇博客hadoop学习——伪分布式环境搭建(有安装包 非常详细)hadoop集群搭建——3台虚拟机1、当搭建完成hadoop的集群搭建之后,我们先来做时区同步在三台虚拟机上都使用以下命令安装 ntpyum -y install ntp然后在三台机器上都用以下命令设置ntp开机自启chkconfig ntpd on下面修改主机的ntp.conf文件vi /etc/ntp.conf如图取消注释 restrict 192.16原创 2020-09-09 20:20:06 · 1022 阅读 · 0 评论 -
org.apache.hadoop.fs.ChecksumException:Checksum error(hadoop put指令用不了报错)
从本地上传文件bb到集群报如下异常:org.apache.hadoop.fs.ChecksumException:Checksumput: Checksum error: file:/etc/profile at 2048 exp: -925270806 got: 536193734hadoop客户端将本地文件bb上传到集群上时,会通过fs.FSInputChecker判断需要上传的文件是否存在.crc校验文件。如果存在.crc校验文件,则会进行校验。如果校验失败,就不会上传该文件。解决方法原创 2020-09-05 17:35:46 · 1706 阅读 · 0 评论 -
hadoop——完全分布式集群环境搭建(有完整的文件配置步骤)
我采用的是先将一台虚拟机hadoop环境搭建好,再克隆两台虚拟机出来进行hadoop集群搭建先关机,进行如图操作进行克隆原创 2020-09-07 22:21:08 · 808 阅读 · 0 评论 -
hadoop2.6.0学习——伪分布式环境搭建(有安装包 非常详细)
在搭建hadoop环境之前需要先把jdk环境安装完成没有jdk环境的可以看我的另一篇博客:利用辅助工具MobaXter在Linux centos7上配置jdk环境然后下载hadoop安装包链接:链接: https://pan.baidu.com/s/10vl0j7xwpYiM2lnGnuOyfA提取码: t37t1、先在linux根目录下创建一个专门放安装包的文件夹:mkdir softwarecd /software将需要的安装包拖入到文件夹里下面进行解压 tar -zxvf had原创 2020-09-07 17:53:34 · 1695 阅读 · 0 评论 -
hadoop 单机模式 伪分布式 完全分布式区别
hadoop 单机模式 伪分布式 完全分布式区别1.单机(非分布式)模式 这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统,一般仅用于本地MR程序的调试2.伪分布式运行模式 这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode) 请注意分布式运行中的这几个结点的区别:从分布式存储的角度来说,集群中的结点由一个Na原创 2020-09-07 11:51:48 · 7835 阅读 · 1 评论 -
hadoop学习——各个名词的理解
hadoop各个名词的理解Hadoop家族的各个成员hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?官方定义:hadoop是一个开发和运行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,但是不知道怎样分配任务,怎样回收结果,hadoop大概就帮助我们做了这件事。1、HDFS我们首先应该考虑的是海量数据怎么保存,怎么管理。这就有了分布式文件系统,HDFS。2、Ma原创 2020-09-05 16:24:05 · 324 阅读 · 0 评论