大数据
木棉上的光
公众号:不止于Java
Github:https://github.com/cyxpdc?tab=repositories
邮箱:1142439493@qq.com
展开
-
配置Hadoop集群常见问题
1)防火墙没关闭、或者没有启动yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032解决办法:chkconfig iptables off #关闭防火墙sbin/start-yarn.sh #hadoop目录下2)主机名称配置错误解决办法:vi /etc/sys...原创 2019-04-28 08:38:29 · 425 阅读 · 0 评论 -
HDFS(九):服役和退役节点
1 服役新数据节点需求:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1.1 环境准备(1)克隆一台虚拟机(2)修改ip地址和主机名称(3)修改xcall和xsync文件,增加新增节点的同步(4)删除原来HDFS文件系统留存的文件(还有ssh)/opt/module/hadoop-2.7.2/da...原创 2019-05-07 21:13:45 · 219 阅读 · 0 评论 -
MapReduce(一):FileInputFormat源码解析
FileInputFormat切片机制1 job提交流程源码详解主要代码流程:waitForCompletion()submit(); // 1建立和集群的连接,将相关信息交给集群,使用了动态代理 connect(); // 1)创建提交job的代理 new Cluster(getConfiguration()); // (1)判断是本地yarn还是远程 in...原创 2019-05-16 11:04:47 · 425 阅读 · 0 评论 -
HBase之读写数据流程简要解释
读数据流程注:HRegionServer保存着meta表以及表数据1.要访问表数据,首先Client先去访问zookeeper,从zookeeper里面获取meta表所在的位置信息,即找到这个meta表在哪个HRegionServer上保存着。(region元数据信息存在regionServer,regionServer的元数据信息存在zookeeper)2.接着Client通过刚才...原创 2019-05-24 22:00:30 · 242 阅读 · 0 评论 -
HDFS(十):DataNode工作机制
DataNode工作机制1 工作流程图:2 文字解析:1.一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、块数据的校验和、以及时间戳。2.DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息。3.心跳是每3秒一次,心跳返回结果带有namenode给该datanode...原创 2019-05-12 16:07:34 · 173 阅读 · 0 评论 -
HDFS(十一):一些骚气的功能
1.集群间数据拷贝1.1 scp实现两个远程主机之间的文件复制scp -r hello.txt root@pdc:/user/pdc/hello.txt // 推 pushscp -r root@pdc:/user/pdc/hello.txt hello.txt // 拉 pullscp -r root@pdc:/user/pdc/hello.txt root@pdc2:/user/...原创 2019-05-12 19:26:47 · 430 阅读 · 0 评论 -
Hadoop执行流程总结
1.Yarn2.MapReduce3.HDFS之读取数据4.HDFS之写数据原创 2019-05-17 22:01:44 · 1923 阅读 · 0 评论 -
MapReduce实战之倒排索引
需求有大量的文本(文档、网页),需要建立搜索索引输入:文本a.txt:pdc pdca b文本b.txt:pdc pdca b文本c.txt:pdc pdca b预期结果:pdc a.txt–2 b.txt–2 c.txt–2a a.txt–1 b.txt–1 c.txt–1b a.txt–1 b.t...原创 2019-05-18 09:36:45 · 512 阅读 · 0 评论 -
MapReduce实战之微信共同好友
需求以下是微信的好友列表数据,冒号前是一个用,冒号后是该用户的所有好友(数据中的好友关系是单向的):A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出哪些...原创 2019-05-18 10:50:02 · 317 阅读 · 0 评论 -
Hive实战之自动化处理日志
需求网站运行过程中会产生日志,我们会按照某个日期分类的文件夹存储定期分析该日志,产生结果分析日志存储的目录如下:/opt/modules/weblog-----20170724(日期文件夹)---------2017072418(日志文件)---------2017072419(日志文件)-----20170725(日期文件夹)---------2017072518(日志文件...原创 2019-05-20 16:07:58 · 515 阅读 · 0 评论 -
HDFS(八):集群安全模式及其应用场景
集群安全模式操作1.概述Namenode启动流程:首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件和一个空的编辑日志。此时,namenode开始监听datanode请求。但是此刻,namenode运行在安全模式,即namenode的文件系统对于客户端来说是只读的。系统中的数据块...原创 2019-05-07 17:24:24 · 156 阅读 · 0 评论 -
HDFS(一):概述
一 HDFS概念1.1 概念HDFS,它是一个文件系统,为Hadoop的组成之一,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。应用场景为海量数据的存储扩展:Windows的文件系统为NTFS1.2 组成...原创 2019-04-28 11:08:45 · 361 阅读 · 0 评论 -
HDFS(二):命令行操作
1.基本语法bin/hadoop fs 具体命令 关于hadoop fs、hdfs dfs的区别:https://blog.csdn.net/u013019431/article/details/784855552.参数大全bin/hadoop fs此处忽略xxx…3.常用命令实操(1)-help:输出这个命令参数bin/hdfs dfs -help ls(2)-ls...原创 2019-04-28 15:00:27 · 174 阅读 · 0 评论 -
HDFS(三):常用客户端API及IO操作
简洁代码的配置:将core-site.xml复制到根目录下,配置如下:<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><!-- 指定HDFS中NameNode的地址 ...原创 2019-04-29 23:53:11 · 221 阅读 · 0 评论 -
HDFS(四):文件写入解析
剖析文件写入1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个...原创 2019-04-30 09:49:31 · 240 阅读 · 1 评论 -
HDFS(五):文件读取解析
剖析文件读取1.客户端向namenode请求下载文件,2.namenode通过查询元数据,找到文件块所在的datanode地址,返回元数据3.挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。4.datanode开始传输数据给客户端(从磁盘里面读取数据放入流,以packet为单位来做校验)。注意:1.此处分块可能会请求不同的datanode,如下图所示的blk_...原创 2019-04-30 11:06:42 · 552 阅读 · 0 评论 -
编写两个方便配置Hadoop集群的脚本
一:集群分发脚本使用此脚本,我们可以复制文件到集群中所有节点的相同目录下。使用者可以输出绝对路径或相对路径。1.1 核心命令:rsync -rvl /opt/module root@pdc:/opt/1.2 使用方式建议集群机器前缀相同,后缀数字不同,如pdc1、pdc2、pdc3、pdc4[root@pdc ~]#myrsync 要同步的文件名称 起始机器 结束机器1.3 开...原创 2019-04-25 16:37:56 · 263 阅读 · 0 评论 -
HDFS(六):NameNode&&SecondaryNameNode工作机制详解
NameNode和Secondary NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息(目录)。下面来看看它们的工作机制:流程详解:1.第一阶段:namenode启动(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求(3)na...原创 2019-05-07 08:57:39 · 354 阅读 · 0 评论 -
HDFS(七):NameNode容灾
在主namenode发生故障时(假设没有及时备份数据),可以从SecondaryNameNode恢复数据。方法一:将SecondaryNameNode中数据拷贝到namenode存储数据的目录;模拟namenode故障,并采用方法一,恢复namenode数据1.kill -9 namenode进程(jps查看进程)2.删除namenode存储的数据(/opt/module/hadoo...原创 2019-05-07 17:00:45 · 576 阅读 · 0 评论 -
Kafka内部原理简易解析
1.使用场景Kafka是一个分布式消息队列。在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个Server实例称为broker。2.成份解析其作用的位置就是下图的队列:可以看到,其有两种模式:...原创 2019-06-01 13:18:06 · 302 阅读 · 0 评论