博客专栏  >  云计算/大数据   >  Hadoop从入门到精通

Hadoop从入门到精通

纪录我的Hadoop学习之旅,从入门慢慢开始积累!

关注
4 已关注
19篇博文
  • Hadoop入门之自动化定时调度之Azkaban部署及使用

    azkaban的部署使用及如何结合项目的使用思考 1  部署azkaban 1.1 准备工作,下载相关安装包,这里我使用的是2.5版本的 官方:http://azkaban.githu...

    2016-05-31 19:32
    4030
  • Hadoop入门之集群高可用HA的搭建及原理图

    hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA 注意:apache提供的hadoop-2.6.4的安...

    2017-08-31 18:53
    52
  • Hadoop入门之Hive的安装和连接

    1.下载hive     wget http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz ...

    2017-09-07 18:14
    49
  • Hadoop入门之Hive的DDL和DML

    1.Hive的表创建(分区,分桶) 创建表SQL CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name     [(col_name da...

    2017-09-12 17:56
    31
  • Hadoop入门之Hive自定义函数和Transform

    1.Java继承UDF类重写evaluate方法后打成Jar包上传,添加到Hive函数中 2.使用Transform在SQL中调用自己写的脚本 这里主要说下第二种: ...

    4天前 18:50
    108
  • Hadoop入门之Flume的几种配置和使用采集日志Demo

    1.获取flume压缩包解压    wget http://archive.apache.org/dist/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz 2....

    3天前 16:08
    94
  • Hadoop入门之Join的两种实现Demo

    需求:  订单表和商品表合到一起 order.txt(订单id, 日期, 商品编号, 数量)     1001    20150710    P0001    2     1002    2...

    2017-08-30 17:11
    283
  • Hadoop入门之共同好友实现Demo

    以下是qq的好友列表数据,冒号前是一个用,冒号后是该用户的所有好友(数据中的好友关系是单向的) A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B...

    2017-08-30 18:17
    276
  • Hadoop入门之自定义groupingcomparator和outputformat的使用

    自定义outputformat输出demo类: /** * maptask或者reducetask在最终输出时,先调用OutputFormat的getRecordWriter方法拿到一个R...

    2017-08-30 18:34
    232
  • Hadoop入门之Mapreduce流程Shuffle过程

    昨天大概讲述了下MR的大概流程(分片,Mapper,Reducer),其中mapper和reducer中间的衔接过程shuffle没有谈到,这次主要总结下这个过程. 1.maptask通...

    2017-08-25 19:14
    71
  • Hadoop入门之几个Demo的加强版本

    昨天写了三个MR的代码Demo,今天再对其加强一下: 1.在使用序列化统计流程的基础上,再次进行MR操作 package com.demo.flowsumsort; impo...

    2017-08-25 19:19
    65
  • Hadoop入门之Yarn调度MR流程

    首先明确下Yarn到底是什么? Yarn是一个资源调度系统,主要负责任务的维持及为任务分配需要的运行资源. 1.客户端生成相应的文件后,连接resourceManager请求提交一个...

    2017-08-28 19:00
    283
  • Hadoop入门之集群搭建

    Hadoop集群的搭建主要分为两个部分,一个是HDFS集群(主要负责文件的存储),这里需要用到NameNode和DataNode两个部分,还有一个是Yarn(主要负责任务调度,即后面需要跑的Mapre...

    2017-08-23 15:45
    96
  • Hadoop之门之HDFS的简单命令

    HDFS简单命令列表: -help             功能:输出这个命令参数手册 -ls                  功能:显示目录信息 ...

    2017-08-23 16:08
    62
  • Hadoop入门之推荐系统架构简单解析

    大致架构如下图: 主要流程分为离线和实时两个部分: 离线部分:收集日志,然后将日志处理为规定格式(日志清洗)上传到HDFS,然后跑相应的MR.将处理后的数据通过各种算法或者查询计算后的...

    2017-08-23 17:39
    96
  • Hadoop入门之HDFS上传和下载文件图解

    文件上传: 1.客户端向NameNode(NN)发送请求上传文件路径 2.NN响应Client确认是否能够上传文件 3.Client再次请求NN,上传一个Black块 4.NN...

    2017-08-23 18:13
    81
  • Hadoop入门之NameNode中元数据的容灾

    这里用到了很多系统里都用的东西就是日志: 1.每次操作NameNode都会记录相应的操作日志,即为edits_xxxxx,过段时间后日志会进行滚动. 2.secondary NameNod...

    2017-08-23 18:36
    66
  • Hadoop入门之Mapreduce部分流程解析

    1.建立连接后,任务文件的分片 (1)客户端和resourcemanager建立连接后需要提交一些文件来构建Job任务,分片的文件是其中之一,还有Job.xml 和Jar (2)分片主...

    2017-08-24 19:01
    84
  • Hadoop入门之Mapreduce过程的几个Demo

    1.简单的统计单词数量的demo熟悉下MR的过程 package com.demo.wordcount; import java.io.IOException; import org.a...

    2017-08-24 21:02
    107

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部