Hadoop
Gru杨
掌握用法,深入理解,不断实践,反复总结
展开
-
Hadoop伪分布式安装
1.创建Hadoop用户2.上传或下载Hadoop安装包cdh5.7.03.部署JDK4.解压Hadoop安装包5.配置/etc/hadoop/core-site.xml:6.配置ssh localhost无密码信任关系7.格式化8.启动9.hdfs dfs操作命令和linux极其相似...原创 2019-03-07 10:56:33 · 131 阅读 · 0 评论 -
如何确定block损坏的位置和修复
。原创 2019-04-09 22:14:49 · 553 阅读 · 0 评论 -
Hadoop HA架构剖析
Hadoop HAHDFS HANameNode与命名空间ZookeeperZKFCJounalNodeHDFS HA工作流程图及说明注意点YARN HA注意点Hadoop HA架构即 Hadoop 高可用架构,7*24小时不中断服务。实现高可用最关键的是消除单点故障。Hadoop HA 严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA。HDFS HANameNode与命...原创 2019-04-09 16:04:04 · 380 阅读 · 0 评论 -
利用MapReduce实现离线数据清洗
MapReduce虽然已经用的很少,但是它的开发流程还是需要了解的。本次是使用MapReduce完成数据清洗的ETL任务,由于是对日志进行清洗,一条日志信息对应一个map任务,完成任务后并不需要规约操作,所以只需要使用Map,而不需要Reduce任务。一、日志文件解析第一步日志文件解析,需要选取有用的字段,并把其中有些字段进行处理(例如时间格式不符合要求,需要更改时间格式)并返回一个Stri...原创 2019-04-02 09:42:38 · 1975 阅读 · 0 评论 -
MapReduce on Yarn
MapRduceMapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的思想就是“分而治之”:Map(映射):把复杂的任务分解为若干个“简单的任务”来处理。Reduce(规约):把map阶段的结果进行汇总。实体一:客户端,用来提交Ma...原创 2019-03-15 16:35:15 · 269 阅读 · 0 评论 -
使HDFS三个进程都以当前机器名启动
etc/hadoop hadoop的配置文件都在这里hadoop-env.sh 是指的hadoop家目录,jdk目录core-site.xml 三个组件核心的共有的hdfs-site.xmlmored-site.xml.templateyarn-site.xml部署用机器名称不要用ip不用ip部署,统一机器名称hostname部署只需要/etc/hosts 修改映射关系即可(第...原创 2019-03-09 15:21:15 · 212 阅读 · 0 评论 -
HDFS读写流程
HDFS写流程HDFS写流程:HDFS Client (基于JVM)调用 Distributed FileSystem.create方法,将文件路径传给NameNode,并与NameNode进行 RPC 通信。然后 NameNode 去check该路径这个文件是否已经存在,并check 是否有权限操作。如果OK,就创建一个新的文件,但是不关联任何 block 块(这时并没有真正地写)。NN...原创 2019-03-13 13:44:41 · 175 阅读 · 0 评论 -
HDFS架构
首先,HDFS是一种主从架构。包括有:NameNode(NN)名称节点Secondary NameNode(SNN)第二名称节点DataNode (DN)数据节点NameNodeNameNode 名称节点,是管理文件系统的命名空间。它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。NameNode也记录着每个文...原创 2019-03-13 11:07:19 · 141 阅读 · 0 评论 -
Hadoop MapReduce 上的 WordCount
首先开启hdfs 和 yarnsbin/start-dfs.sh sbin/start-yarn.sh在 hdfs 上创建目录 hdfs dfs -mkdir -p /wordcount/input在linux 下创建 a.log b.txt 两个文件,再把两个文件通过put 上传至 hdfshdfs dfs -put a.log /wordcount/input...原创 2019-03-12 15:56:06 · 160 阅读 · 0 评论 -
JPS命令的理解
JPS,其实是JVM Process Status,是JDK提供的一个显示当前所有java进程pid的命令,非常适合在linux上简单察看当前java进程的一些简单情况。它的位置在JDK里 :/usr/java/jdk1.8.0_45/bin/jps它对应的进程的标识文件,默认地址为:/tmp/hsperfdata_进程用户名称普通用户只能看自己的进程pidroot用户可以看所有用户的...原创 2019-03-09 21:51:51 · 540 阅读 · 0 评论 -
配置ssh localhost无密码信任关系
Setup passphraseless ssh步骤如下:ssh-keygen 然后三下回车cd ~/.ssh 文件里有两个密钥文件一个私钥 一个公钥(.pub)要无密码访问 需要把公钥输入到认证文件里cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys然后试一下ssh localhost date会发现一个坑根据Apach...原创 2019-03-08 11:15:22 · 317 阅读 · 0 评论 -
Hadoop基础概念
Hadoop狭义:hadoop软件 hadoop.apache.org广义:hadoop生态圈(hive zookeeper spark)版本用2.x3.x 需要踩坑主要用CDH5.x 部署大数据环境用的是 hadoop2.6.0-cdh5.7.0baidu : cdh tarctrl + f 搜索 cdh5.7.0hadoop组件hdfs : 存储 分布式文件系统mapr...原创 2019-03-08 09:55:05 · 197 阅读 · 0 评论 -
查看Hadoop日志
Hadoop的默认的日志是在$HADOOP_HOME的log目录下,分为.log和.out文件两种我们只需要查看.log文件通常.log文件的格式为:hadoop-hadoop-datanode-hadoop002.loghadoop-用户名-进程名-机器名.log查看日志的步骤:(以查看ERROR为例)先查看文件大小 ll -h,如果不是很大,直接用vi命令进入,然后在命令行模式 ...原创 2019-07-23 10:49:11 · 2677 阅读 · 0 评论