2017年08月_当以乐

11月 10月 09月 08月 07月 04月 03月 02月 01月

原创 Hadoop入门之集群高可用HA的搭建及原理图

hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意：apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.6.4就需要重新在64操作系统上重新编译（建议第一次安装用32位的系统，我将

2017-08-31 18:53:31 2990

原创 Hadoop入门之自定义groupingcomparator和outputformat的使用

自定义outputformat输出demo类:/** * maptask或者reducetask在最终输出时，先调用OutputFormat的getRecordWriter方法拿到一个RecordWriter * 然后再调用RecordWriter的write(k,v)方法将数据写出 * * @author * */public class LogEnhanceOut

2017-08-30 18:34:29 654

原创 Hadoop入门之共同好友实现Demo

以下是qq的好友列表数据，冒号前是一个用，冒号后是该用户的所有好友（数据中的好友关系是单向的）A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,

2017-08-30 18:17:40 804

原创 Hadoop入门之Join的两种实现Demo

需求: 订单表和商品表合到一起order.txt(订单id, 日期, 商品编号, 数量) 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 1003 20150710 P0003 3produ

2017-08-30 17:11:56 727

原创 Hadoop入门之Yarn调度MR流程

首先明确下Yarn到底是什么? Yarn是一个资源调度系统,主要负责任务的维持及为任务分配需要的运行资源.1.客户端生成相应的文件后,连接resourceManager请求提交一个application2.resourceManager(RM)给客户端返回一个地址,供客户端提交文件.3.Client提交文件到指定的HDFS地址上4.Cli

2017-08-28 19:00:58 2807

原创 Hadoop入门之几个Demo的加强版本

昨天写了三个MR的代码Demo,今天再对其加强一下:1.在使用序列化统计流程的基础上,再次进行MR操作package com.demo.flowsumsort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hado

2017-08-25 19:19:46 529

原创 Hadoop入门之Mapreduce流程Shuffle过程

昨天大概讲述了下MR的大概流程(分片,Mapper,Reducer),其中mapper和reducer中间的衔接过程shuffle没有谈到,这次主要总结下这个过程.1.maptask通过inputformat(可以自定义实现类)读取要处理的文件交给你写的mapper过程处理后到outputcollector进行一些列的操作后写入到HDFS中(操作如下)2.将要写出的数据

2017-08-25 19:14:35 561

原创 Hadoop入门之Mapreduce过程的几个Demo

1.简单的统计单词数量的demo熟悉下MR的过程package com.demo.wordcount;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWr

2017-08-24 21:02:33 1061

原创 Hadoop入门之Mapreduce部分流程解析

1.建立连接后,任务文件的分片(1)客户端和resourcemanager建立连接后需要提交一些文件来构建Job任务,分片的文件是其中之一,还有Job.xml 和Jar(2)分片主要的作用是为后面的Maptask过程确定启动多少个maptask及其所要处理的文件的划分(默认以文件或者blackSzie划分)(3)具体分片数量的确定在 org.apache.hadoop.ma

2017-08-24 19:01:52 401

原创 Hadoop入门之NameNode中元数据的容灾

这里用到了很多系统里都用的东西就是日志:1.每次操作NameNode都会记录相应的操作日志,即为edits_xxxxx,过段时间后日志会进行滚动.2.secondary NameNode 从Namenode中拉取要更新的edits_xxxxx到本地(此时会滚动一次日志)3.将相应的日志和fsimage加载到内存中进行合并操作4.将合并后内存中的数据dump成fsimage.

2017-08-23 18:36:17 804

原创 Hadoop入门之HDFS上传和下载文件图解

文件上传:1.客户端向NameNode(NN)发送请求上传文件路径2.NN响应Client确认是否能够上传文件3.Client再次请求NN,上传一个Black块4.NN响应Client给予几个要上传的DataNode的地址(有一定的容灾规则)5.Client向第一个DataNode请求建立连接进行文件上传,第一个DataNode会向第二个DataNode请求建立

2017-08-23 18:13:15 3651

原创 Hadoop入门之推荐系统架构简单解析

大致架构如下图:主要流程分为离线和实时两个部分:离线部分:收集日志,然后将日志处理为规定格式(日志清洗)上传到HDFS,然后跑相应的MR.将处理后的数据通过各种算法或者查询计算后的结果存储到方便快速读取的数据库中(Mysql,redis....),留给后期Web服务查询使用.实时部分:日志收集处理为实时进行的,使用strom或者spark直接处理执行相应的算法逻辑,得出

2017-08-23 17:39:29 1141

原创 Hadoop之门之HDFS的简单命令

HDFS简单命令列表:-help 功能：输出这个命令参数手册-ls 功能：显示目录信息示例： hadoop fs -ls hdfs://hadoop-server01:9000/备注：这些参数中，所有的hdfs路径都可以简写-->hadoop fs -ls / 等同于上一

2017-08-23 16:08:49 609

原创 Hadoop入门之集群搭建

Hadoop集群的搭建主要分为两个部分,一个是HDFS集群(主要负责文件的存储),这里需要用到NameNode和DataNode两个部分,还有一个是Yarn(主要负责任务调度,即后面需要跑的Mapreduce),这里也是两个ResourceManager和NodeManager.下面是搭建的大致流程: (如果Shell脚本写的好,可以写个Shell脚本一次性部署一下)

2017-08-23 15:45:52 378

docker从入门到实战

docker入门书籍,从整体介绍了docker的结构,命令,框架等知识点

2018-08-17

Solr官方文档

solr官方文档,学习搜索引擎入门必备,看完绝对能成为初级搜索工程师.

2018-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人