hadoop大数据平台学习总结
文章平均质量分 64
这是我大三上学期学习大数据(hadoop平台)的时候的学习心得和笔记,算是大数据学习起步阶段的总结.
29DCH
In me the tiger sniffs the rose.
展开
-
ubuntu18.04 server配置ssh免密登录
最近在做大数据项目,现在在边学边搭建集群。我的计划是一台主机deepin+两台ubuntu server版本的虚拟机组成我的hadoop集群环境。由于每次ssh都要输入密码,这样就很不方便,于是就配置了一下ssh的免密登录,下面是详细步骤和截图。这里以我的deepin登录两台ubuntu虚拟机为例。1.ssh-keygen,生成公钥、私钥等信息直接回车,信息会保存在指定文件夹.ssh中...原创 2019-01-19 23:36:18 · 3490 阅读 · 0 评论 -
ubuntu 18.04 server中利用keepalived实现高可靠(HA)
高可靠概念HA(High Available), 高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。高可靠软件keepalivedkeepalived是一款可以实现高可靠的软件,通常部署在2台服务器上,分为一主一备。Keepalived可以对本机上的进程进行检测,一旦Master检测出某个进程出现问题,将自己切换成Backup状态,然后通知...原创 2019-01-20 20:39:25 · 729 阅读 · 0 评论 -
zookeeper分布式集群的搭建
首先我的环境是一台deepin加两台ubuntu server版的虚拟机的集群。首先要关闭防火墙。然后再看zookeeper文件目录下conf目录下的文件是否有zoo.cfg和zoo_sample.cfg(原本解压后只有zoo_sample.cfg,但是需要将其改名为zoo.cfg),不能两个文件同时存在。在zoo.cfg文件中加入如下配置dataDir=/root/zkdatadata...原创 2019-01-21 19:54:51 · 363 阅读 · 0 评论 -
大数据学习方法及主要内容
目前来说,大数据的学习核心就是hadoop生态圈及相关的技术。主要的技能树-语言篇:Hadoop本身是用java开发的,所以对java的支持性非常好,所以java是必须的语言。数据挖掘:因为Python开发效率较高所以我们使用Python来进行任务,当然,目前很强大的scala也是一种不错的备选。因为Hadoop是运行在Linux系统上的,所以还需要掌握Linux的知识。学习介绍:学...原创 2018-12-04 14:50:49 · 513 阅读 · 0 评论 -
大数据学习路线
最近在学习大数据的相关知识,刚把hadoop伪分布式单机版配置环境搭好,基本操作也算练习了一遍,下面准备弄集群了.学完hadoop就要开始学Spark,时间还是挺紧的.现在大三了,自己也是第一次自学大数据,没什么经验,坑都是要一个一个踩的,这样才能更好地去锻炼自己的能力,提高自己包括自学等各方面的水平!平时我会把自己犯过的错和一些知识或者经验总结归纳到自己的博客里面,大数据方面也有挺多的,和我一...原创 2018-10-06 21:18:45 · 322 阅读 · 0 评论 -
linux中数据仓库工具hive简介及安装部署详解
简介:Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分...原创 2018-11-13 21:38:04 · 267 阅读 · 0 评论 -
非关系型分布式数据库hbase简介及环境安装部署
HBase是一个开源的非关系型分布式数据库,它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以容错地存储海量稀疏的数据。下载:http://archive-primary.cloudera.com/cdh5/cdh/5/解压缩以后将...原创 2018-10-19 22:21:43 · 506 阅读 · 0 评论 -
Hadoop完全分布式环境(虚拟机)搭建过程
开始集群之路原创 2018-10-11 14:54:44 · 649 阅读 · 0 评论 -
Hadoop分布式文件系统HDFS架构
1 Master(NameNode/NN) 带 N个Slaves(DataNode/DN)HDFS/YARN/HBase1个文件会被拆分成多个Blockblocksize:128M130M ==> 2个Block: 128M 和 2MHDFS的副本机制:(保证容错性)副本存放策略:节点存放在多个机架上,保证容错性NN:1)负责客户端请求的响应2)负责元数据(文件的名...原创 2018-09-22 21:27:17 · 329 阅读 · 0 评论 -
HDFS伪分布式单节点版搭建过程总结
1.推荐下载hadoop的cdh版本,这里我下载的是hadoop-2.6.0-cdh5.7.0版本的下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gzLinux用tar -zxvf命令解压到你指定的位置即可2.安装JDK,配置Java环境这里就不说了,Hadoop需要Jvm,必须跑在ja...原创 2018-09-29 22:20:51 · 495 阅读 · 0 评论 -
HDFS shell操作
常用命令详情见官网http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html将hadoop的bin目录配置进环境变量里面,便于操作vim /etc/profile在底部添加路径即可export HADOOP_HOME=/home/zq/hadoop-2.6.0-cdh...原创 2018-10-01 16:14:19 · 270 阅读 · 0 评论 -
Java API操作HDFS文件
采用idea+Maven,添加相关的HDFS依赖pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org原创 2018-10-01 21:33:04 · 347 阅读 · 0 评论 -
HDFS读写数据流程详解
首先通过一幅漫画来了解一下(很经典的一幅图,从网上找的)原创 2018-10-01 22:09:24 · 297 阅读 · 0 评论 -
分布式资源调度框架YARN总结
1.产生背景Hadoop1.x时:MapReduce:Master/Slave架构,1个JobTracker带多个TaskTrackerJobTracker: 负责资源管理和作业调度TaskTracker:定期向JT汇报本节点的健康状况、资源使用情况、作业执行情况;接收来自JT的命令:启动任务/杀死任务产生问题:单点故障,节点压力大不易扩展YARN:不同计算框架可以共享同一个H...原创 2018-10-02 18:01:13 · 301 阅读 · 0 评论 -
分布式计算框架MapReduce总结
源自于Google的MapReduce论文,克隆复制发展而来优点:海量数据离线处理&易开发&易运行(与Spark比较还是弱很多)缺点:难以满足实时流式计算在跑MapReduce时,前面我的几篇博客说的HDFS和YARN都必须先跑起来词频统计案例分析:wordcount: 统计文件中每个单词出现的次数需求:求wc文件内容小:shell(wc_shell.sh)2)文件内容很大: ...原创 2018-10-03 17:11:03 · 929 阅读 · 0 评论 -
基于MapReduce的词频统计程序WordCountApp(一)
词频统计案例分析:wordcount: 统计文件中每个单词出现的次数需求:求wc文件内容小:shell(wc_shell.sh)使用IDEA+Maven开发wc:1)开发2)编译:mvn clean package -DskipTests3)上传到服务器:scp target/HDFS_Test-1.0-SNAPSHOT.jar zq@zq:~/lib4)运行hadoop...原创 2018-10-03 20:20:42 · 2213 阅读 · 0 评论 -
基于MapReduce的词频统计程序WordCount2App(二)
紧接我的上一篇博客基于MapReduce的词频统计程序WordCountApp(一)这次我们进行重构,以解决还存在的问题问题如下:相同的代码和脚本再次执行,会报错security.UserGroupInformation:PriviledgedActionException as:hadoop (auth:SIMPLE) cause:org.apache.hadoop.mapred.F...原创 2018-10-03 20:48:43 · 467 阅读 · 0 评论 -
MapReduce编程之Combiner
Combiner可以理解为本地的reducer,减少了Map Tasks输出的数据量以及数据网络传输量编译运行:hadoop jar /home/zq/lib/HDFS_Test-1.0-SNAPSHOT.jar MapReduce.CombinerApp hdfs://zq:8020/hello.txt hdfs://zq:8020/output/wc和前一篇博客的代码是差不多的,只是...原创 2018-10-03 21:11:50 · 367 阅读 · 0 评论 -
MapReduce编程之Partitioner
Partitioner:在MR中,Partitioner决定了MapTask输出的数据交由哪个Reduce Task处理默认实现:分发的key的hash值对Reduce Task个数取模假设数据如下所示:每行内容为水果和其数量,现要求将同种类的水果放在一起,得到该种水果的总数量编译运行hadoop jar /home/zq/lib/HDFS_Test-1.0-SNAPSHOT.jar...原创 2018-10-03 22:22:16 · 439 阅读 · 0 评论 -
hadoop jobhistory开启流程
hadoop jobhistory记录下已运行完的MapReduce作业信息并存放在指定的HDFS目录下,默认情况下是没有启动的,需要配置完后手工启动服务。1.mapred-site.xml添加如下配置,根据自身情况修改用户名,下面是我的配置(用户名zq)<property> <name>mapreduce.jobhistory.address</name&g...原创 2018-10-03 23:18:21 · 1266 阅读 · 0 评论