![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
A_ChunUnique
大数据爱好者
展开
-
CentOS设置静态IP并可访问外网
最近在学习大数据,在学习的时候碰到了一个问题就是给CentOS虚拟机配置静态IP后,就无法访问网络了,这个问题纠结了我好长时间,现在终于找到解决方法了,赶紧记录下来,以备以后查询。注: 我这里说的方法适用于CentOS6版本 第一步:在网络连接下有VMnet1和VMnet8两个连接,其中VMnet1是本地模式,VMnet8是NAT模式(也就是网络模式),如下图所示 第转载 2017-08-13 00:08:31 · 7111 阅读 · 2 评论 -
Spark RDD、DataFrame和DataSet的区别
在spark中,RDD、DataFrame、Dataset是最常用的数据类型,今天谈谈他们的区别!一 、共性 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算。3、三者都会根据spark的内...原创 2018-05-18 21:41:02 · 673 阅读 · 0 评论 -
修改CDH进程NN、DN日志输出为JSON格式
我们知道SparkSQL是可以直接读取JSON数据的,如果我们要通过Flume采集日志通过Spark处理后进行可视化。那么将日志改造成JSON后在Spark处理阶段就非常方便了。本文主要讲解如何将CDH中HDFS两个进程NN、DN日志改成JSON格式。一、查看DN原始日志格式2018-01-15 11:48:28,916 INFO org.apache.hadoop.hdfs.se原创 2018-01-15 12:06:42 · 901 阅读 · 0 评论 -
CDH5集群配置lzo
一、安装lzo 1、下载与集群版本相对应的parcel包 parcels下载我CDH版本是5.11.0,所以下载如下三个文件[root@hadoop002 lzo]# lltotal 2440-rw-r--r-- 1 root root 2476671 Jan 12 10:24 GPLEXTRAS-5.11.0-1.cdh5.11.0.p0.30-el6.parcel-rw-原创 2018-01-12 12:17:35 · 817 阅读 · 1 评论 -
Hadoop(HA)四个核心配置文件
一、core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <!--Yarn 需要使用 fs.defaultFS 指定NameNode URI --> <property>原创 2017-09-11 18:50:16 · 3371 阅读 · 0 评论 -
Hadoop学习之HDFS/MapReduce/YARN进程介绍
一、Hadoop之三大组件 HDFS———->数据存储 MapReduce—>作业计算框架 Yarn———–>资源调度 二、HDFS 1、启动HDFS查看进程[hadoop@hadoop001 hadoop]$ sbin/start-dfs.shStarting namenodes on [hadoop001]hadoop001: starting nameno原创 2017-08-29 22:13:42 · 1096 阅读 · 0 评论 -
Hadoop学习之HDFS写流程
HDFS写流程图 假设有个bigdata.log文件需要上传到HDFS系统根目录,使用以下命令hadoop fs -put bigdata.log /整个写流程如下 1、客户端会调用DistributedFileSystem对象的create()方法,并通过 RPC向NameNode发出请求创建一个文件2、NameNode接收到用户的写文件的RPC请求后,首先进行各种检查。如用户是否有创建权限原创 2017-08-29 23:01:31 · 397 阅读 · 0 评论 -
Hadoop学习之HDFS读流程
HDFS读流程图 假设需要读取HDFS根目录下的bigdata.log文件,使用如下命令hadoop fs -cat /bigdata.log整个流程如下:1、客户端会调用DistributedFileSystem.open方法与NameNode进行RCP通信,NameNode会返回该文件的部分或全部的 block列表(也包含该列表各block的分布在Datanode地址的列表),也就是返回FSD原创 2017-08-29 23:21:51 · 370 阅读 · 0 评论 -
Hadoop学习之MapRduce笔记
一、MapRedduce1和MapReduce2 1、功能 MapReduce分两个版本,MR1和MR2 MR1是Hadoop1.X中的,包括计算+资源调度两个功能 MR2是Hadoop2.X中的,只有计算功能,资源调度被剥离成单独的组件YARN了2、进程 MR1有具体进程 JobTracker TaskTracker MR2没有具体进程,而且集群中不需要部署。只需将写好的代码jar原创 2017-09-04 11:44:44 · 643 阅读 · 0 评论 -
HIVE2.X启动报错 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaS
启动HIVE错误信息如下Logging initialized using configuration in jar:file:/opt/soft/hive/lib/hive-common-2.1.1.jar!/hive-log4j2.properties Async: trueException in thread "main" java.lang.RuntimeException: org.a原创 2017-09-11 15:09:26 · 1582 阅读 · 0 评论 -
Yarn资源配置说明
Yarn最佳实践转载:http://blog.csdn.NET/jiangshouzhuang/article/details/52595781本篇博客,我将讨论Yarn资源管理方面的最佳实践,如果有写的不对的地方,请朋友们多多指教。本篇文章也参考了网上的一些资料。 Hadoop2中引入Yarn组件,将MRv2(Yarn)分为两个主要组件,一个是资源管理,一个是作业调度和监控,并且使用独立的守护转载 2017-09-08 17:39:42 · 6588 阅读 · 0 评论 -
CentOS6.5环境部署Hadoop2.8.1集群(HA)
部署前提 1、三台主机安装JDK1.7 2、关闭防火墙、selinux 3、配置静态IP一、所用软件 hadoop-2.8.1 zookeeper-3.4.6 hadoop-2.8.1下载地址 http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.1/ zookeeper-3.4.6 下载地址 http://mirrors原创 2017-09-12 13:09:27 · 710 阅读 · 0 评论 -
CentOS下CDH5.8.2本地包安装
准备环境 1、虚拟机安装三台centos6.5系统的机器 2、修改(setup或者vim /etc/network)主机名分别为hadoop01/hadoop02/hadoop03 a、setup设置 b、vim /etc/sysconfig/network-scripts/ifcfg-eth0 配置完后ifup eth0 (开启你设置的网卡 不一定是eth0) c、ifconf原创 2017-08-12 18:17:02 · 716 阅读 · 0 评论 -
CentOS6.5下Hadoop2.8.1编译
一、软件准备 所需软件链接:http://pan.baidu.com/s/1bplgej9 密码:8pxr 1、jdk1.8 进入 cd /usr/java/目录 上传jdk1.8并解压并改名tar -zxvf jdk-8u144-linux-x64.tar.gzmv jdk1.8.0_144 jdk1.8配置环境变量vim /etc/profileexport JAVA_HOME=/us原创 2017-08-22 19:25:28 · 522 阅读 · 0 评论 -
Mac 安装Hadoop-2.6.0-cdh5.7.0伪分布式
下载Hadoop-2.6.0-cdh5.7.0 单机下载自己需要的版本,我下载的是hadoop-2.6.0-cdh5.7.0一. 解压tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C xxxxxxxx(自己想放的路径)二 . 配置进入etc/hadoopcore-site.xml<?xml version="1.0" encoding=...原创 2018-09-24 20:52:30 · 977 阅读 · 0 评论