大数据平台Hadoop生态系统
文章平均质量分 64
29DCH
In me the tiger sniffs the rose.
展开
-
HDFS shell操作
常用命令详情见官网http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html将hadoop的bin目录配置进环境变量里面,便于操作vim /etc/profile在底部添加路径即可export HADOOP_HOME=/home/zq/hadoop-2.6.0-cdh...原创 2018-10-01 16:14:19 · 270 阅读 · 0 评论 -
大数据学习方法及主要内容
目前来说,大数据的学习核心就是hadoop生态圈及相关的技术。主要的技能树-语言篇:Hadoop本身是用java开发的,所以对java的支持性非常好,所以java是必须的语言。数据挖掘:因为Python开发效率较高所以我们使用Python来进行任务,当然,目前很强大的scala也是一种不错的备选。因为Hadoop是运行在Linux系统上的,所以还需要掌握Linux的知识。学习介绍:学...原创 2018-12-04 14:50:49 · 513 阅读 · 0 评论 -
linux中数据仓库工具hive简介及安装部署详解
简介:Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分...原创 2018-11-13 21:38:04 · 267 阅读 · 0 评论 -
HDFS伪分布式单节点版搭建过程总结
1.推荐下载hadoop的cdh版本,这里我下载的是hadoop-2.6.0-cdh5.7.0版本的下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gzLinux用tar -zxvf命令解压到你指定的位置即可2.安装JDK,配置Java环境这里就不说了,Hadoop需要Jvm,必须跑在ja...原创 2018-09-29 22:20:51 · 495 阅读 · 0 评论 -
Hadoop分布式文件系统HDFS架构
1 Master(NameNode/NN) 带 N个Slaves(DataNode/DN)HDFS/YARN/HBase1个文件会被拆分成多个Blockblocksize:128M130M ==> 2个Block: 128M 和 2MHDFS的副本机制:(保证容错性)副本存放策略:节点存放在多个机架上,保证容错性NN:1)负责客户端请求的响应2)负责元数据(文件的名...原创 2018-09-22 21:27:17 · 330 阅读 · 0 评论 -
hadoop jobhistory开启流程
hadoop jobhistory记录下已运行完的MapReduce作业信息并存放在指定的HDFS目录下,默认情况下是没有启动的,需要配置完后手工启动服务。1.mapred-site.xml添加如下配置,根据自身情况修改用户名,下面是我的配置(用户名zq)<property> <name>mapreduce.jobhistory.address</name&g...原创 2018-10-03 23:18:21 · 1268 阅读 · 0 评论 -
MapReduce编程之Partitioner
Partitioner:在MR中,Partitioner决定了MapTask输出的数据交由哪个Reduce Task处理默认实现:分发的key的hash值对Reduce Task个数取模假设数据如下所示:每行内容为水果和其数量,现要求将同种类的水果放在一起,得到该种水果的总数量编译运行hadoop jar /home/zq/lib/HDFS_Test-1.0-SNAPSHOT.jar...原创 2018-10-03 22:22:16 · 439 阅读 · 0 评论 -
MapReduce编程之Combiner
Combiner可以理解为本地的reducer,减少了Map Tasks输出的数据量以及数据网络传输量编译运行:hadoop jar /home/zq/lib/HDFS_Test-1.0-SNAPSHOT.jar MapReduce.CombinerApp hdfs://zq:8020/hello.txt hdfs://zq:8020/output/wc和前一篇博客的代码是差不多的,只是...原创 2018-10-03 21:11:50 · 367 阅读 · 0 评论 -
基于MapReduce的词频统计程序WordCount2App(二)
紧接我的上一篇博客基于MapReduce的词频统计程序WordCountApp(一)这次我们进行重构,以解决还存在的问题问题如下:相同的代码和脚本再次执行,会报错security.UserGroupInformation:PriviledgedActionException as:hadoop (auth:SIMPLE) cause:org.apache.hadoop.mapred.F...原创 2018-10-03 20:48:43 · 467 阅读 · 0 评论 -
基于MapReduce的词频统计程序WordCountApp(一)
词频统计案例分析:wordcount: 统计文件中每个单词出现的次数需求:求wc文件内容小:shell(wc_shell.sh)使用IDEA+Maven开发wc:1)开发2)编译:mvn clean package -DskipTests3)上传到服务器:scp target/HDFS_Test-1.0-SNAPSHOT.jar zq@zq:~/lib4)运行hadoop...原创 2018-10-03 20:20:42 · 2213 阅读 · 0 评论 -
分布式计算框架MapReduce总结
源自于Google的MapReduce论文,克隆复制发展而来优点:海量数据离线处理&易开发&易运行(与Spark比较还是弱很多)缺点:难以满足实时流式计算在跑MapReduce时,前面我的几篇博客说的HDFS和YARN都必须先跑起来词频统计案例分析:wordcount: 统计文件中每个单词出现的次数需求:求wc文件内容小:shell(wc_shell.sh)2)文件内容很大: ...原创 2018-10-03 17:11:03 · 929 阅读 · 0 评论 -
Hadoop完全分布式环境(虚拟机)搭建过程
开始集群之路原创 2018-10-11 14:54:44 · 649 阅读 · 0 评论 -
分布式资源调度框架YARN总结
1.产生背景Hadoop1.x时:MapReduce:Master/Slave架构,1个JobTracker带多个TaskTrackerJobTracker: 负责资源管理和作业调度TaskTracker:定期向JT汇报本节点的健康状况、资源使用情况、作业执行情况;接收来自JT的命令:启动任务/杀死任务产生问题:单点故障,节点压力大不易扩展YARN:不同计算框架可以共享同一个H...原创 2018-10-02 18:01:13 · 301 阅读 · 0 评论 -
HDFS读写数据流程详解
首先通过一幅漫画来了解一下(很经典的一幅图,从网上找的)原创 2018-10-01 22:09:24 · 297 阅读 · 0 评论 -
Java API操作HDFS文件
采用idea+Maven,添加相关的HDFS依赖pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org原创 2018-10-01 21:33:04 · 348 阅读 · 0 评论 -
zookeeper分布式集群的搭建
首先我的环境是一台deepin加两台ubuntu server版的虚拟机的集群。首先要关闭防火墙。然后再看zookeeper文件目录下conf目录下的文件是否有zoo.cfg和zoo_sample.cfg(原本解压后只有zoo_sample.cfg,但是需要将其改名为zoo.cfg),不能两个文件同时存在。在zoo.cfg文件中加入如下配置dataDir=/root/zkdatadata...原创 2019-01-21 19:54:51 · 363 阅读 · 0 评论