![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
环境
蜗牛!Destiny
博客已经迁移到www.codeobj.com,感觉写的还不错的童鞋可以到这里继续查看
展开
-
CDH5(5.15.0)升级jdk1.7到1.8,并且将spark1.6升级到spark2.3
严格来说不是将spark1.6升级到spark2.3,而是安装一个新的spark2.3一、JDK1.7升级到JDK1.8由于之前CDH中安装了spark1.6,为了适配,我安装jdk1.7,但是在spark2.3中jdk1.7的支持已经被移除了,所以我们第一件事需要将jdk版本升级到jdk1.81、停掉所有节点的cloudera manager/opt/cm-5.15.0/...原创 2018-08-18 15:26:47 · 2692 阅读 · 0 评论 -
大数据工作中你必须知道的基础命令集锦
以下是个人在工作中总结的一些简单的命令,有linux也有hadoop集群命令的操作,精力有限,肯定还有很多命令没有总结到,欢迎留言,我会定期添加新的内容查看当前目录是什么命令pwd切换到上一次和上一层目录cd -cd …创建目录命令,连续目录的参数mkdirmkdir -p 连续目录mv和cp什么区别mv:用户可以使用该命令为文件或目录重命名或将文件由一个目录...原创 2018-10-23 10:51:23 · 305 阅读 · 0 评论 -
Linux查看机器负载 ,内存,磁盘
一、查看机器负载查看服务器负载有多种命令,w或者uptime都可以直接展示负载$ uptime12:20:30 up 44 days, 21:46, 2 users, load average: 8.99, 7.55, 5.40$ w12:22:02 up 44 days, 21:48, 2 users, load average: 3.96, 6.28, 5.16load a...原创 2018-10-23 12:44:32 · 6012 阅读 · 0 评论 -
【完全分布式Hadoop】(三)集群设置SSH无密码登陆
之前的文章已经有SSH免密部分,这里单独列出来只是为了方便查找打通SSH,设置ssh无密码登陆(所有节点)组建了三个节点的集群DEV2、DEV3、DEV4在所有节点上执行 ssh-keygen -t rsa 一路回车,生成无密码的密钥对。在DEV3中执行:scp ~/.ssh/id_rsa.pub root@DEV2:~/.ssh/rsa3在DEV4中执行:scp ~/.ssh/i...原创 2018-10-31 11:16:52 · 1126 阅读 · 0 评论 -
【完全分布式Hadoop】(四)新建hadoop用户以及用户组,并赋予sudo免密码权限
搭建hadoop集群环境不仅master和slaves安装的hadoop路径要完全一样,也要求用户和组也要完全一致。因此第一步就是新建用户以及用户组。对于新手来言,新建用户用户组,并赋予适当的权限无疑是最大的问题。下面请跟随我来新建用户以及用户组并赋予root权限。 在root权限下首先新建用户,建议用adduser命令sudo adduser hadooppasswd hadoop...原创 2018-10-31 11:20:20 · 5129 阅读 · 0 评论 -
【完全分布式Hadoop】(一)从虚拟机Centos6.5的安装开始
一、虚拟机安装不做过多介绍,自行去某度搜索二、Centos6.5配置关闭防火墙service iptables stop关闭防火墙开机启动chkconfig iptables offwindows中查看VM8的IPv4ipconfig -all1) 记录本机的DNS:2) 记录VM8的IPv4和子网掩码...原创 2018-10-29 23:07:38 · 700 阅读 · 0 评论 -
【完全分布式Hadoop】(二)HDFS、YARN以及HA高可用概念介绍
一、HDFS-Hadoop分布式文件系统HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面我们分别介绍这四个组成部分1、Client:就是客户端。1)文件切分。文件上传 HDFS 的时候,Client 将文件切分成 一个一个128M的Block,然...原创 2018-10-30 14:04:40 · 900 阅读 · 1 评论 -
【完全分布式Hadoop】(五)jdk1.8环境安装
1.、下载jdk1.8 有些Centos系统可能已经有openjdk了,但是为了更清晰的了解我们的环境,我们一般采用二进制包,进行环境配置 卸载系统自带的openjdkrpm -e --nodeps `rpm -qa | grep java` CDH官方hadoop2.6版本是推荐使用jdk1.7版本的,但是spark2.2.x开始不再支持jdk1.7。而jdk1.8也是可以向下兼...原创 2018-11-01 13:49:21 · 1064 阅读 · 0 评论 -
【完全分布式Hadoop】(六)MySQL5.7服务端安装,DBA权限设置以及客户端配置
一、 下载MySQL5.7先检查mysql是否已经存在:ps -ef|grep mysqldrpm -qa |grep -i mysql #如果有mysql-lib的rpm先不要卸载查看系统是否有默认安装的mariadb,如果有,和前边的openjdk一样卸载掉rpm -qa | grep mariadbrpm -e --nodeps `rpm -qa | grep mariad...原创 2018-11-02 10:55:57 · 947 阅读 · 0 评论 -
CENTOS 7.5离线安装Cloudera Manager 5和CDH5(5.15.0) 完全教程
特别声明:LZ按照教程完整的走了一遍,最终所有组件都是正常的,中间遇到很多坑,做了一些修改,本文最后会将遇到的一些坑总结到一片新文章中 windows虚拟机安装CDH cpu 16G内存 默认单核单线 DEV2 Server&&Agent 5G 默认单核单线 DEV3 Ag转载 2018-08-16 16:46:57 · 4072 阅读 · 0 评论 -
分布式日志收集框架Flume
一、业务现状分析在现实业务中我们有很多服务和系统,包括:1)network devices 网络设备2)operating system 操作系统3)web servers4)Applications 应用这些系统产生大量的日志和生产数据,那么我们需要将以上系统中的日志文件迁移到Hadoop集群中,在这个过程中,我们有以下几种方式:1)直接SCP复制到Hadoop集群,通过hdf...原创 2018-09-20 11:32:25 · 215 阅读 · 0 评论 -
Flume实战一,Flume配合telnet从指定网络端口采集数据输出到控制台
1、使用Flume的关键就是写配置文件1)配置Source2)配置Channel3)配置Sinks4)将以上三种组件串联起来在cd $FLUME_HOME/confvim example.conf#example.conf内容# a1可以看做是flume服务的名称,每个flume都由sources、channels和sinks三部分组成# sources可以看做是数据源头、cha...原创 2018-09-20 15:30:08 · 1935 阅读 · 0 评论 -
Spark在Windows下的环境搭建
由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。一.JDK的安装与环境变量的设置...转载 2018-10-12 09:39:57 · 857 阅读 · 0 评论 -
windows下安装并启动hadoop2.7.2
64位windows安装hadoop没必要倒腾Cygwin,直接解压官网下载hadoop安装包到本地->最小化配置4个基本文件->执行1条启动命令->完事。一个前提是你的电脑上已经安装了jdk,设置了java环境变量。下面把这几步细化贴出来,以hadoop2.7.2为例1、下载hadoop安装包就不细说了:http://hadoop.apache.org/-&转载 2018-10-12 11:20:42 · 485 阅读 · 0 评论 -
eclipse创建maven管理Spark的scala以及eclipse的Maven配置
说明,由于spark是用scala写的。因此,不管是在看源码还是在写spark有关的代码的时候,都最好是用scala。由于我个人以前是纯粹的Pythoner,一直使用的都是PyCharm,然而最近换了新工作后,由于各种原因,要么使用付费软件,要么使用免费软件,所以,我被迫选择了eclipse以及scala进行spark程序的开发。既然无法拒绝,那就好好享受,下面就为您介绍一下eclipse + M...原创 2018-10-12 13:43:38 · 1236 阅读 · 0 评论 -
Spark Streaming的maven配置pom.xml
不多说,直接查询相关的内容https://mvnrepository.com/search?q=spark我们可以看到很多常见的东西,spark-core,spark-sql,spark-streaming等等点开这些链接进入到版本列表界面,选择自己需要的配置spark-corespark-streaming这里就不一一说明了,下面我直接列出一个已经测试成功的pom.xml&l...原创 2018-10-12 15:27:47 · 4866 阅读 · 0 评论 -
Maven的安装以及配置,window以及linux
一、Maven的安装以及配置1)下载https://maven.apache.org/download.cgi2)解压window下载的apache-maven-3.5.4-bin.zip,直接解压linux下载的apache-maven-3.5.4-bin.tar.gz解压tar -xzvf apache-maven-3.5.4-bin.tar.gz -C /app/cdh3) 配...原创 2018-10-10 10:20:45 · 204 阅读 · 0 评论