Hadoop从入门到精通
文章平均质量分 76
纪录我的Hadoop学习之旅,从入门慢慢开始积累!
当以乐
成长是打破枷锁的有效方式.
展开
-
Hadoop入门之azkaban的安装和使用
1.azkaban的安装http://blog.csdn.net/sqh201030412/article/details/515483552.azkaban的几种使用2.1 使用小Demo #commandtype=commandcommand=sh /home/hadoop/shell/say_hello.shshel原创 2017-09-22 16:11:34 · 1621 阅读 · 0 评论 -
Hadoop入门之Sqoop的安装和数据导入导出
sqoop安装1、下载并解压最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/2、修改配置文件$ cd $SQOOP_HOME/conf$ mv sqoop-env-template.sh sqoop-env.sh打开sqoop-env.sh并编辑下面几行:export HADOOP_COM原创 2017-09-22 18:16:57 · 612 阅读 · 0 评论 -
Hadoop入门之Hbase得安装和简单Shell使用
一,HBase安装(HBase依赖Hadoop集群 )1.安装Zookeeper集群参考此篇中ZK集群搭建过程:http://blog.csdn.net/sqh201030412/article/details/513964272.HBase集群搭建下载安装包:wget http://archive.apache.org/dist/h原创 2017-11-01 15:46:27 · 423 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储转载 2017-11-02 10:27:06 · 349 阅读 · 0 评论 -
Hadoop入门之自动化定时调度之Azkaban部署及使用
azkaban的部署使用及如何结合项目的使用思考1 部署azkaban1.1 准备工作,下载相关安装包,这里我使用的是2.5版本的官方:http://azkaban.github.io/downloads.html还需要一个jdbc的连接jar包:链接:http://pan.baidu.com/s/1dFe8avJ 密码:0pjh我原创 2016-05-31 19:32:22 · 8483 阅读 · 0 评论 -
Hadoop入门之集群高可用HA的搭建及原理图
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编译(建议第一次安装用32位的系统,我将原创 2017-08-31 18:53:31 · 3017 阅读 · 0 评论 -
Hadoop入门之Hive的安装和连接
1.下载hive wget http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz2.解压hive tar -zxvf apache-hive-1.2.1-bin.tar.gz mv apache-hive-1.2.1-bin.tar.gz app/hi原创 2017-09-07 18:14:33 · 1233 阅读 · 0 评论 -
Hadoop入门之Hive的DDL和DML
1.Hive的表创建(分区,分桶)创建表SQLCREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name dat原创 2017-09-12 17:56:45 · 462 阅读 · 0 评论 -
Hadoop入门之Hive自定义函数和Transform
1.Java继承UDF类重写evaluate方法后打成Jar包上传,添加到Hive函数中2.使用Transform在SQL中调用自己写的脚本这里主要说下第二种:1. 需要用到的原始表如下,分隔符号为\thive> select * from my_one_table;OK1 songqinghu2 zhangwei原创 2017-09-20 18:50:38 · 1386 阅读 · 0 评论 -
Hadoop入门之Flume的几种配置和使用采集日志Demo
1.获取flume压缩包解压 wget http://archive.apache.org/dist/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz2.添加JAVA_HOME到flume配置文件flume_env.sh中 # Enviroment variables can be set here. export JAVA_HOME原创 2017-09-21 16:08:47 · 734 阅读 · 0 评论 -
Hadoop入门之Join的两种实现Demo
需求: 订单表和商品表合到一起order.txt(订单id, 日期, 商品编号, 数量) 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 1003 20150710 P0003 3produ原创 2017-08-30 17:11:56 · 743 阅读 · 0 评论 -
Hadoop入门之共同好友实现Demo
以下是qq的好友列表数据,冒号前是一个用,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,原创 2017-08-30 18:17:40 · 814 阅读 · 0 评论 -
Hadoop入门之自定义groupingcomparator和outputformat的使用
自定义outputformat输出demo类:/** * maptask或者reducetask在最终输出时,先调用OutputFormat的getRecordWriter方法拿到一个RecordWriter * 然后再调用RecordWriter的write(k,v)方法将数据写出 * * @author * */public class LogEnhanceOut原创 2017-08-30 18:34:29 · 665 阅读 · 0 评论 -
Hadoop入门之Mapreduce流程Shuffle过程
昨天大概讲述了下MR的大概流程(分片,Mapper,Reducer),其中mapper和reducer中间的衔接过程shuffle没有谈到,这次主要总结下这个过程.1.maptask通过inputformat(可以自定义实现类)读取要处理的文件交给你写的mapper过程处理后到outputcollector进行一些列的操作后写入到HDFS中(操作如下)2.将要写出的数据原创 2017-08-25 19:14:35 · 576 阅读 · 0 评论 -
Hadoop入门之几个Demo的加强版本
昨天写了三个MR的代码Demo,今天再对其加强一下:1.在使用序列化统计流程的基础上,再次进行MR操作package com.demo.flowsumsort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hado原创 2017-08-25 19:19:46 · 543 阅读 · 0 评论 -
Hadoop入门之Yarn调度MR流程
首先明确下Yarn到底是什么? Yarn是一个资源调度系统,主要负责任务的维持及为任务分配需要的运行资源.1.客户端生成相应的文件后,连接resourceManager请求提交一个application2.resourceManager(RM)给客户端返回一个地址,供客户端提交文件.3.Client提交文件到指定的HDFS地址上4.Cli原创 2017-08-28 19:00:58 · 2844 阅读 · 0 评论 -
Hadoop入门之集群搭建
Hadoop集群的搭建主要分为两个部分,一个是HDFS集群(主要负责文件的存储),这里需要用到NameNode和DataNode两个部分,还有一个是Yarn(主要负责任务调度,即后面需要跑的Mapreduce),这里也是两个ResourceManager和NodeManager.下面是搭建的大致流程: (如果Shell脚本写的好,可以写个Shell脚本一次性部署一下)原创 2017-08-23 15:45:52 · 398 阅读 · 0 评论 -
Hadoop之门之HDFS的简单命令
HDFS简单命令列表:-help 功能:输出这个命令参数手册-ls 功能:显示目录信息示例: hadoop fs -ls hdfs://hadoop-server01:9000/备注:这些参数中,所有的hdfs路径都可以简写-->hadoop fs -ls / 等同于上一原创 2017-08-23 16:08:49 · 623 阅读 · 0 评论 -
Hadoop入门之推荐系统架构简单解析
大致架构如下图:主要流程分为离线和实时两个部分:离线部分:收集日志,然后将日志处理为规定格式(日志清洗)上传到HDFS,然后跑相应的MR.将处理后的数据通过各种算法或者查询计算后的结果存储到方便快速读取的数据库中(Mysql,redis....),留给后期Web服务查询使用.实时部分:日志收集处理为实时进行的,使用strom或者spark直接处理执行相应的算法逻辑,得出原创 2017-08-23 17:39:29 · 1159 阅读 · 0 评论 -
Hadoop入门之HDFS上传和下载文件图解
文件上传:1.客户端向NameNode(NN)发送请求上传文件路径2.NN响应Client确认是否能够上传文件3.Client再次请求NN,上传一个Black块4.NN响应Client给予几个要上传的DataNode的地址(有一定的容灾规则)5.Client向第一个DataNode请求建立连接进行文件上传,第一个DataNode会向第二个DataNode请求建立原创 2017-08-23 18:13:15 · 3695 阅读 · 0 评论 -
Hadoop入门之NameNode中元数据的容灾
这里用到了很多系统里都用的东西就是日志:1.每次操作NameNode都会记录相应的操作日志,即为edits_xxxxx,过段时间后日志会进行滚动.2.secondary NameNode 从Namenode中拉取要更新的edits_xxxxx到本地(此时会滚动一次日志)3.将相应的日志和fsimage加载到内存中进行合并操作4.将合并后内存中的数据dump成fsimage.原创 2017-08-23 18:36:17 · 826 阅读 · 0 评论 -
Hadoop入门之Mapreduce部分流程解析
1.建立连接后,任务文件的分片(1)客户端和resourcemanager建立连接后需要提交一些文件来构建Job任务,分片的文件是其中之一,还有Job.xml 和Jar(2)分片主要的作用是为后面的Maptask过程确定启动多少个maptask及其所要处理的文件的划分(默认以文件或者blackSzie划分)(3)具体分片数量的确定在 org.apache.hadoop.ma原创 2017-08-24 19:01:52 · 418 阅读 · 0 评论 -
Hadoop入门之Mapreduce过程的几个Demo
1.简单的统计单词数量的demo熟悉下MR的过程package com.demo.wordcount;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWr原创 2017-08-24 21:02:33 · 1083 阅读 · 0 评论