大数据开发学习_super-yong的博客-CSDN博客

大数据开发学习

关注

大数据分布式集群的搭建及各个组件（Hadoop、Hive、HBase、Flume、Azkban、Kafka、Spark等）的安装使用等。 ps：各个组件框架均使用CDH版本

关注数：文章数：22 文章阅读量：49364 文章收藏量：70

作者: super-yong

纯属爱好，欢迎指导。

展开

MapReduce模板的编写

我们根据wordcount的mapreduce程序来编写一个MapReduce的通用模板，方便之后的使用：首先说明一下之前的博客中有提到过有三种编写MapReduce的模板：---------------------------------------------------------------------三种编写MapReduce模板：Driver：-...

原创 2019-03-04 15:18:26 · 273 阅读 · 0 评论
wordcount的MapReduce程序编写

在之前我已经介绍过MapReduce程序运行时的过程，接下来我们自己编写一个wordcount程序，我会在代码中做详细的标注：不多说直接上代码：（不继承也不实现）package com.superyong.mapreduce;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.io.IntWrit...

原创 2019-03-04 11:06:14 · 729 阅读 · 0 评论
MapReduce处理数据过程介绍

MapReduce处理数据的过程 input ->map ->shuffle ->reduce ->output -a 针对input和output来讲正常情况下，你不需要编写代码，只需要指定需要处理的文件路径即可 -b map和reduce中间有一个shuffle阶段属于MapReduce框架自己的事情，当然我们...

原创 2019-02-26 21:05:24 · 2131 阅读 · 0 评论
MapReduce程序编写环境配置

我们的程序都是jar包直接运行在yarn上的，那么程序是在哪里编写的呢？hadoop肯定会开放一个接口出来供你使用连接让你的程序可以直接访问到hadoop的各个模块，进行调试运行，那么如何配置这个环境：毋庸置疑肯定是java程序，为了方便，我使用maven进行管理，因为需要使用到的包很多，所以我提前下载更新了我maven库，方便使用，如果没有，那就一个个去官网下载。。。这里我是用的开发工具...

原创 2019-01-28 23:04:46 · 1228 阅读 · 0 评论
MapReduce样例程序运行测试

MapReduce程序需要运行，可以选择运行方式：第一种：本地模式：需要下载hadoop环境包，步骤如下：pc环境： 1.将Hadoop安装本地解压 2.配置Hadoop的环境变量添加 %HADOOP_HOME% 修改 %PATH% 添加 %HADOOP_HOME%/bin;%HADOOP_HOME%/sb...

原创 2019-01-24 23:28:28 · 374 阅读 · 0 评论
Hadoop各个模块的架构（分布式）功能

分布式相对于集中式：集中式：一台计算机：将所有东西（软件）放在此计算上（安装）分布式：多台机器：将东西进行划分，每台机器存储一部分主从架构：主节点：master 管理者，调度者从节点：slaves ...

原创 2019-01-24 22:21:05 · 811 阅读 · 0 评论
HDFS的使用操作

前面系统的介绍过HDFS文件系统，接下来介绍的是如何使用HDFS文件系统:HDFS文件系统也是建立在linux上的一种文件系统，所以它和linux的文件系统使用方法大致相同下面是HDFS文件系统的基本使用命令：查看文档：bin/hdfs dfs 创建目录： bin/hdfs dfs -mkdir -p /datas/map...

原创 2019-01-24 22:05:50 · 466 阅读 · 0 评论
Linux 软件安装到哪里合适，目录详解

Linux 的软件安装目录是也是有讲究的，理解这一点，在对系统管理是有益的/usr：系统级的目录，可以理解为C:/Windows/，/usr/lib理解为C:/Windows/System32。/usr/local：用户级的程序目录，可以理解为C:/Progrem Files/。用户自己编译的软件默认会安装到这个目录下。/opt：用户级的程序目录，可以理解为D:/Software，opt有可选...

转载 2019-01-18 17:20:03 · 9214 阅读 · 3 评论
HDFS文件系统

前面Hadoop的分布式环境已经搭建完成了，接下来说说如何使用Hadoop的HDFS文件系统：HDFS（Hadoop Distributed File System）Hadoop 分布式文件系统:基于流数据模式访问就是可以字节序列化的数据，java.io.Serializable接口分布式文件系统处理的数据必须是流数据，可以写IO操作的数据它是以128MB的数据块 ...

转载 2019-01-18 16:31:59 · 3953 阅读 · 0 评论
Hadoop分布式环境搭建遇到的问题： Problem binding to [bigdata-03.superyong.com:8031] java.net.BindException

首先介绍的我的集群分布情况：bigdata-01.superyong.com NodeManager DataNode NameNode（active）bigdata-02.superyong.com NodeManager DataNode NameNode（standby）bigdata-03.superyong.com ...

原创 2019-01-18 15:35:12 · 1815 阅读 · 1 评论
漫谈hadoop启动脚本

首先说一下之前开启服务的脚本，因为习惯，，，所以之前测试是否配置成功的时候直接就把脚本贴上去了，但是好多人问那个脚本之间的区别，所以就有这篇博客了，现在详细说说这些脚本的作用和区别联系：大家每次启动的时候都是sbin/+脚本名；实际上所有启动和关闭的脚本都在这个文件中，所以打开这个文件：[super-yong@bigdata-01 sbin]$ lltotal 92-rwxr-xr-...

原创 2019-01-18 15:07:05 · 588 阅读 · 0 评论
Hadoop中出现错误如何查看错误信息

前面在配置hadoop的过程中，发现最开始安装解压之后，首先配置的就是hadoop的环境变量，而且配置的就是jdk的环境变量，后面配置完成之后查看进程也是使用的jps（java进程）查看服务是否运行的，所以hadoop实际上就是建立在java基础上的，他的所有服务都是一个java进程，所以首要的配置就是java环境变量，那么当某个服务或者运行在hadoop的某个应用出错时，如何查看输出的日志信息呢...

原创 2019-01-18 10:22:05 · 6912 阅读 · 0 评论
Hadoop中的各个端口

之前已经将hadoop分布式部署完成了，但是当中配置了许多的端口：端口号：HDFS内部通讯端口：8020；Hadoop1.x：9000WEB UI 端口：50070YARN内部通讯端口：8032WEB UI 端口：8088历史服务器内部通讯端口：10020WEB UI 端口：19888 ...

原创 2019-01-18 09:30:07 · 3872 阅读 · 1 评论
历史服务器的配置

配置历史服务器：大家知道当MapReduce程序运行完成之后，这个任务就看不到了，为了在运行完成后还可以看到运行完成的任务情况，所以历史服务器就为了解决这个问题而提出。内部实现的大概原理：先收集日志信息-》开启某个服务（端口）；mapred-site.xml <property> <name>mapreduce.jobhistory....

原创 2019-01-17 20:31:42 · 890 阅读 · 0 评论
Hadoop分布式集群的搭建（Apache 版本）下

部署Hadoop：在配置之前首先要确定我们的集群节点的分布：节点分布：hdfs的节点：主节点：NameNode；从节点：DataNode；yarn的节点：主节点：ResourceManager；从节点：NodeManager ；bigdata-01.superyong.com NodeManager DataNode Name...

原创 2019-01-17 15:06:18 · 207 阅读 · 0 评论
Hadoop分布式集群的搭建（Apache 版本）上

前面说过，大数据框架最常使用的有两种一种是Apache发布的开源版本，还有一种是Cloudera公司基于Apache发布的开源版本进行优化修改升级的CDH版本。这两个版本大公司偏向于第一种，他们技术成熟，有能力自己处理开源版本中的bug，但中小型企业一般都会选择Cloudera公司发布的cdh版本，因为该公司会一直对这些版本进行优化升级，方便中小公司的使用。这几...

原创 2019-01-17 14:53:39 · 216 阅读 · 0 评论
SSH免秘钥配置和NTP时间同步

当虚拟机配置好之后，为了方便后续各个框架服务的启动和用户之间的切换不需要输入密码，所以有必要配置一下ssh免秘钥登录，在后续服务是非常多的，一个个手动输入命令可能要输入十几个，还要不停的切换主机，很麻烦，每次开启服务或者切换主机都需要输入密码，为了方便，所以配置ssh免秘钥登录。 ssh免密钥登录：第一步：为每台机器生产自己公私钥（一路回车就行） ssh-keygen -t rs...

原创 2019-01-16 10:36:35 · 1280 阅读 · 0 评论
虚拟机克隆和分布式部署

安装方式：前面linux的搭建说了那么多，就是为了方便分布式集群的部署安装的，接下来就进入正题开始安装部署分布式集群：分布式部署安装的方式有两种：第一种：手动安装部署：手动部署说白了就是手动复制到指定的机器上，大家都知道配置一台机器之后，其他机器也需要安装配置，但基本都相同，只需要变更几个变量就可以了，所以手动部署就是通过走网路的方式将配置好的机...

原创 2019-01-15 19:54:41 · 644 阅读 · 0 评论
linux的一些常用工具及需要安装的软件

昨天发布博客的时候有人评论问到为什么不用ububtu图形化界面不是更加方便么，下面是我给出的一些理由：1、资源数量。centos上的资源数量很多，ubuntu上相对少些。2、服务器稳定性。centos不经常更新（不知道这算不算优点），ubuntu动不动就让你更新，呵呵，没有哪家公司敢这样把？3、技术支持团队。centos是rh团队维护的，rh团队的技术实力毋庸置疑，而且有什么安全漏洞都...

原创 2019-01-08 20:20:36 · 12186 阅读 · 0 评论
linux的一些前期配置准备（网络设置等）

在安装好CentOS6.4之后先配置一些基本的环境1.网络环境：如果你买的是阿里的服务器，那么这些你都不需要配置，阿里会自动帮你配置好一切，我太穷、、、首先打开虚拟机的虚拟网络编辑器：编辑 -》虚拟网络编辑器 -》更改设置选择VMnet8 NAT模式，点击NAT设置配置网关：192.168.59.2 （根据自己的使用要求配，当然也可以和我一致）子网：192.168.59...

原创 2019-01-06 22:11:57 · 199 阅读 · 0 评论
linux安装使用及版本介绍

Redhat系列目前许多高手都使用它，长相一般但却很强悍，一般是Linux高手的首选系统，相比之下就是桌面系统有点不大一样，拥有强大的rpm软件包管理系统，界面更加简洁，如果你不喜欢太多花哨的桌面系统可以考虑用它！ Redhat系列，包括RHEL(Redhat Enterprise Linux，也就是所谓的RedhatAdvance Server，收费版本)、FedoraCore(...

原创 2019-01-06 18:06:52 · 1249 阅读 · 2 评论
写在前面

系统的学习了大数据开发所要了解掌握的必备知识，现在分为两部分整理出来，理论+实践，帮助自己梳理之前的知识，也为大家分享所学的知识。

原创 2019-01-06 17:33:57 · 128 阅读 · 2 评论

大数据开发学习

作者: super-yong

MapReduce模板的编写

wordcount的MapReduce程序编写

MapReduce处理数据过程介绍

MapReduce程序编写环境配置

MapReduce样例程序运行测试

Hadoop各个模块的架构（分布式）功能

HDFS的使用操作

Linux 软件安装到哪里合适，目录详解

HDFS文件系统

Hadoop分布式环境搭建遇到的问题： Problem binding to [bigdata-03.superyong.com:8031] java.net.BindException

漫谈hadoop启动脚本

Hadoop中出现错误如何查看错误信息

Hadoop中的各个端口

历史服务器的配置

Hadoop分布式集群的搭建（Apache 版本）下

Hadoop分布式集群的搭建（Apache 版本）上

SSH免秘钥配置和NTP时间同步

虚拟机克隆和分布式部署

linux的一些常用工具及需要安装的软件

linux的一些前期配置准备（网络设置等）

linux安装使用及版本介绍

写在前面