大数据开发
Gaoithe
程序与人生
展开
-
maven 错误 Downloading: http://repo.maven.apache.org/maven2/ maven 更换阿里云mirror
错误信息:root@node1:/usr/local/hadoop-2.7.2-src# mvn package -Pdist,native,docs -DskipTests -Dtar[INFO] Scanning for projects...Downloading: https://repo.maven.apache.org/maven2/org/apache/felix/mave...原创 2020-04-13 15:27:37 · 4439 阅读 · 1 评论 -
Hadoop 源码编译 Centos 7 + hadoop-2.7.2 + jdk 8u144
一、 源码编译的目的:1. 下载的源码是 32 位的, 需要编译成 64 位。2. 为Hadoop加入新的功能,比如新的压缩算法(snappy),需要在安装完snappy后,重新编译源码。二、编译准备:1. 确保CentOS能够连接外网。2. 切换到 root 用户,采用root用户编译,减少文件夹权限出现的问题。3. jar 包准备:链接: ...原创 2020-04-13 15:19:30 · 270 阅读 · 0 评论 -
Lesson11 Hadoop 完全分布式 集群时间同步 crontab & ntp 的配置
为了防止分布式集群运行任务时出错,节点间要进行时间同步。时间同步方式:选定一台主机作为时间服务器,其它主机与其进行定时的时间同步,比如每隔十分钟,同步一次时间。定时任务的实现:Crontab,时间服务器的配置:ntp一、 Crontab 的使用:1. 基本语法:crontab [选项] 选项:-e 编辑crontab定时任务 -l 查询crontab任务...原创 2020-04-09 23:42:28 · 337 阅读 · 0 评论 -
Hadoop 完全分布式 搭建 排错指南 及 重启流程(Centos 7.5 + Windows10 + VMware)
以下所有操作均基于博主之前发布的 Hadoop 伪分布式 及 完全分布式 教程,如果安装方式差异较大,需要视实际情况而定。部分要点之前的博客中已经提出,此处不再重复。前置博客:https://blog.csdn.net/sinat_40471574/category_9754566.html分类中所有关于Hadoop 的 Lesson10 及之前的文章一、 首先确认...原创 2020-04-09 20:02:55 · 339 阅读 · 0 评论 -
Lesson10 Hadoop 完全分布式 群启动集群、集群的基本测试 及 集群的停止
一、 启动集群:1. 配置 slaves: 编辑${HADOOP_HOME}/etc/hadoop/slaves 文件在文件中加入节点信息,注意结尾不允许有空格,且文件中不允许有空行分发配置文件xsync slaves2. 初始化 NameNode:在规划 NameNode 的主机上在HADOOP_HOME 下输入命令bin/hdfs na...原创 2020-04-09 20:01:55 · 370 阅读 · 0 评论 -
Lesson9 Hadoop 完全分布式 主机 SSH 免密登录
之前在利用 scp 和 sync 等进行主机间通信时,每一次都要输入各主机的密码,配置SSH免密登录即可省去该过程。一、 免密登录原理:1. 在主机 A 利用非对称性加密算法生成密钥对,公钥发送给其它主机,私钥保留。2. 主机 A 将公钥发送给 B,即可免密访问 B。3. 主机 A 将数据用私钥加密后发送给 B 。4. B 接收到数据后用 A 给的公钥解密数据。...原创 2020-04-09 17:49:32 · 715 阅读 · 0 评论 -
Lesson8 Hadoop 完全分布式 集群配置 修改并分发配置文件
一、 集群部署规划:首先要对HDFS 和 YARN 两个组件进行规划,并根据规划进行部署。 hadoop-1 hadoop-2 hadoop-3 HDFS NameNode DataNode DataNode Secondary NameNode DataNode ...原创 2020-03-28 01:01:57 · 1190 阅读 · 0 评论 -
Lesson7 Hadoop 完全分布式 集群分发脚本编写 xsync - 集群分发工具 scp、rsync 介绍及安装使用
一、 集群分发介绍:将一台主机上的配置、文件分发到其它主机上,避免重复。二、 集群分发工具:1. scp的安装:yum -y install openssh-clients ,所有主机都要安装。命令格式:scp [参数] 本地文件 远程帐户@远程 IP 地址:远程目录,参数如下-v 显示详细的连接进度-P 指定远程主机的 sshd 端口号-r ...原创 2020-03-28 00:34:57 · 351 阅读 · 0 评论 -
Lesson6 Hadoop 完全分布式 搭建准备 - Centos7 VMware 虚拟机下的安装、防火墙、静态IP及主机名的配置、JDK 及 Hadoop 的安装、SSH 连接虚拟机
一、 Centos7 的安装:1. Centos7 的安装: 安装 3 台虚拟机,分别命名为 node1、node2、node3。安装部分参考博客:https://blog.csdn.net/sinat_40471574/article/details/105046478二、 静态 IP的配置:将三台虚拟机设置为连续的IP ,如 192.168.31.41、...原创 2020-03-23 16:15:32 · 297 阅读 · 0 评论 -
Lesson5 Hadoop 伪分布模式配置历史服务器、日志聚合及配置文件的相关说明
一、 配置历史服务器:1. 配置mapred-site.xml:<!--历史服务器端地址--><property> <name>mapreduce.jobhistory.address</name> <value>node1:10020</value> </property><!...原创 2020-03-17 20:46:24 · 171 阅读 · 0 评论 -
Lesson4 Hadoop 伪分布模式Yarn的配置及Mapreduce demo程序 WordCount的运行
一、 Yarn的配置:<!--Reducer获取数据的方式--><property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property><!--指定Yarn的R...原创 2020-03-17 19:10:26 · 277 阅读 · 0 评论 -
Lesson3 Hadoop 伪分布式模式集群运行情况的查看、HDFS文件系统的简单管理操作
一、 集群运行情况的查看:1. 输入 netstat -lnpt 此时应看到50070号端口已经开启:2. 输入主机名 + 端口号即可查看集群运行情况:对于安装了桌面系统的远程服务器或者本地虚拟机,可以在系统内的浏览器输入如 node1:50070 进行访问。对于未安装桌面系统的远程服务器,可以输入主机外网ip地址 + 端口号进行访问。3. 菜单栏介绍:...原创 2020-03-14 16:52:14 · 664 阅读 · 0 评论 -
Lesson2 Hadoop 伪分布式模式的配置、集群启动
一、 总览:二、 配置文件的修改:1. core-site.xml的修改:从hadoop的安装目录进入到 /etc/hadoop文件夹,可找到如下文件:编辑core-site.xml将,在<configuration></configuration>中添加如下内容:<!--指定HDFS中NameNode的地址-->...原创 2020-03-14 16:44:16 · 256 阅读 · 0 评论 -
Lesson1 Hadoop 本地模式运行官方 demo - Grep&WordCount
官方教程地址:https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation一、命令解析:Part1:cp etc/hadoop/*.xml input #将文件夹下后缀为xml的文件复制到inputetc:ETCe...原创 2020-02-29 23:06:03 · 257 阅读 · 0 评论 -
Centos 7.5 大数据开发环境搭建 JDK 8u144 + Hadoop 2.7.2
一、 安装文件下载:1. JDK:https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.html在所给链接中找到找到 8u144 版本,注册一个ORACLE账号,下载Linux x64版本,注意文件后缀为.tar.gz2. Hadoop:https://hadoop.apac...原创 2020-02-27 17:27:09 · 270 阅读 · 0 评论