Hadoop example
技术蚂蚁
这个作者很懒,什么都没留下…
展开
-
Hadoop家族系列文章
http://blog.fens.me/category/hadoop-action/转载 2016-09-10 15:41:25 · 267 阅读 · 0 评论 -
Hadoop文件合并
整个代码的工作就是把本地目录下个若干个小文件,合并成一个较大的文件,写入到HDFS中。话不多说,代码如下: 补充说明:后来发现,书上的源代码是没有问题的,只不过是书上的源代码要打成jar包,放在集群的机器上去运行,如果在Eclipse下面调试运行的话,就会出现问题。出现问题的原因如下1234567//读取本地文件系统,如转载 2016-11-23 20:00:37 · 2514 阅读 · 0 评论 -
自定义输入文件格式类InputFormat
Hadoop代码测试环境:Hadoop2.4应用:在对数据需要进行一定条件的过滤和简单处理的时候可以使用自定义输入文件格式类。Hadoop内置的输入文件格式类有:1)FileInputFormat这个是基本的父类,我们自定义就直接使用它作为父类;2)TextInputFormat这个是默认的数据格式类,我们一般编程,如果没有特别指定的话,一般都使用的是这个;key代表当前行数据距离转载 2016-11-23 19:48:19 · 3840 阅读 · 0 评论 -
使用hadoop读写mongodb
由于我之前爬取的微博数据都放在MongoDB内,所以使用Hadoop来处理mongodb内的数据是很自然的一种选择。想要用hadoop读写mongodb内的数据,首先需要mongo-hadoop包。我是使用maven自动下载的,包名:org.mongodb.mongo-hadoop:mongo-hadoop-core 或者你也可以去http://search.maven.org/ 或者其他转载 2016-11-19 19:20:29 · 4343 阅读 · 0 评论 -
大数据Web日志分析 用Hadoop统计KPI指标实例
可以带着下面问题来阅读文章问题:1.MapReduce在日志分析的作用思考:该如何架构kpi系统,需要考虑什么问题。kpi:关键绩效指标法,即KPI绩效考核,是企业绩效考核的方法之一,其特点是考核指标围绕关键成果领域进行选取,均对关键绩效指标考核法的应用及其特点有所介绍。前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访转载 2016-11-28 21:09:38 · 11078 阅读 · 0 评论 -
hadoop日志分析系统
环境:centos7+hadoop2.5.2+hive1.2.1+mysql5.6.22+indigo service 2思路:hive加载日志→Hadoop分布式执行→需求数据进入MySQL注意:hadoop日志分析系统网上资料很多,但是大多都有写小问题,无法顺利运行,但本文中都是经过亲自验证的,可以一气呵成。另外还包括可能遇到的异常的详细解释及相关解决方案。1) 日志格转载 2016-11-28 20:51:44 · 2720 阅读 · 0 评论 -
网站日志分析项目案例(二)数据清洗
一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。 图1展示转载 2016-11-28 20:40:06 · 1553 阅读 · 0 评论 -
网站日志分析项目案例(一)项目介绍
一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。 图1展示转载 2016-11-28 20:35:12 · 3525 阅读 · 0 评论 -
hadoop高级应用-搜索提示
先搭建简单的web项目,基于struts,使用到了bootstrap。界面:web.xml1 filter>2 filter-name>struts2filter-name>3 filter-class>org.apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFilte转载 2016-10-15 22:43:06 · 389 阅读 · 0 评论 -
hadoop RPC框架实现和NameNode的交互
在此之前,我们需要准备:hadoop的源码protobuf 2.5版本JDKhadoop 2.x版本中采用了Protocol Buffer (简称protobuf)作为序列化和反序列化的工具,所以我们在修改源码时需要按照相应规则编写message来实现数据的传输。什么是protobuf?protobuf是Google 公司内部的混合语言数据标准,它很适合做数据存储或 RPC 数据交换格转载 2016-10-13 22:14:01 · 923 阅读 · 0 评论 -
Hadoop2源码分析-MapReduce篇
1.概述 前面我们已经对Hadoop有了一个初步认识,接下来我们开始学习Hadoop的一些核心的功能,其中包含mapreduce,fs,hdfs,ipc,io,yarn,今天为大家分享的是mapreduce部分,其内容目录如下所示:MapReduce V1MapReduce V2MR V1和MR V2的区别MR V2的重构思路 本篇文章的源码是基于hadoop-2.6.转载 2016-10-13 21:53:04 · 444 阅读 · 0 评论 -
高可用Hadoop平台-实战(电商网站的用户行为分析)
今天要和大家分享的案例是一个基于电商网站的用户行为分析,这里分析的指标包含以下指标:统计每日PV每日注册用户每日IP跳出用户 其他指标可以参考上述4个指标进行拓展,下面我们开始今天的分析之旅。2.流程 首先,在开发之前我们需要注意哪些问题?我们不能盲目的按照自己的意愿去开发项目,这样到头来得不到产品的认可,我们的工作又得返工。下面结合自身的工作,说说开发的具体流转载 2016-10-13 21:43:01 · 4984 阅读 · 0 评论 -
Hadoop2源码分析-YARN 的服务库和事件库
1.概述 在《Hadoop2源码分析-YARN RPC 示例介绍》一文当中,给大家介绍了YARN 的 RPC 机制,以及相关代码的演示,今天我们继续去学习 YARN 的服务库和事件库,分享目录如下所示:服务库和事件库介绍使用示例截图预览 下面开始今天的内容分享。2.服务库和事件库介绍2.1服务库 YARN对于生命周期较长的对象使用服务的对象转载 2016-10-13 21:36:04 · 295 阅读 · 0 评论 -
Hadoop2源码分析-YARN RPC 示例介绍
我们知道在Hadoop的RPC当中,其主要由RPC,Client及Server这三个大类组成,分别实现对外提供编程接口、客户端实现及服务端实现。如下图所示: 图中是Hadoop的RPC的一个类的关系图,大家可以到《Hadoop2源码分析-RPC探索实战》一文中,通过代码示例去理解他们之间的关系,这里就不多做赘述了。接下来,我们去看Yarn的RPC。转载 2016-10-13 21:33:26 · 974 阅读 · 0 评论 -
Hadoop V2 RPC框架使用实例
本实例主要演示通过Hadoop V2的RPC框架实现一个计算两个整数的Add和Sub,服务接口为 CaculateService ,继承于 VersionedProtocol ,具体代码如下所示:CaculateServicepackage cn.hadoop.service;import org.apache.hadoop.io.IntWritable;import o转载 2016-10-13 21:21:03 · 333 阅读 · 0 评论 -
MapReduce业务 - 图片关联计算
1.概述 最近在和人交流时谈到数据相似度和数据共性问题,而刚好在业务层面有类似的需求,今天和大家分享这类问题的解决思路,分享目录如下所示:业务背景编码实践预览截图 下面开始今天的内容分享。2.业务背景 目前有这样一个背景,在一大堆数据中,里面存放着图片的相关信息,如下图所示: 上图只是给大家列举的一个示例数据格式,第一列表示自身图片,第二、第三......等转载 2016-10-13 20:55:13 · 248 阅读 · 0 评论 -
hadoop 之 PathFilter -- 输入文件过滤器
1.指定多个输入在单个操作中处理一批文件,这是很常见的需求。比如说处理日志的MapReduce作业可能需要分析一个月内包含在大量目录中的日志文件。在一个表达式中使用通配符在匹配多个文件时比较方便的,无需列举每个文件和目录来指定输入。hadoop为执行通配提供了两个FileSystem方法:public FileStatus[] globStatus(Path pathPattern) th转载 2016-09-10 15:57:50 · 2164 阅读 · 0 评论 -
hadoop 之 MultipleInputs
hadoop 之 MultipleInputs--为多个输入指定不同的InputFormat和Mapper分类:hadoopMapReduce (195) (0)举报 收藏 MultipleInputs 介绍默认情况下,MapReduce作业的输入可以包含多个输入文件,但是所有的文件都由同一个InputFormat 和 同一个Mapper 来处理,这是的多个文件应该转载 2016-09-10 15:54:07 · 1485 阅读 · 0 评论 -
使用hadoop读写mysql
与MongoDB相比,Hadoop提供了内置的输入输出库DBInputFormat和DBOutputFormat,但是依然要使用JDBC驱动包com.MySQL.jdbc.Driver。没有的可以去http://www.mysql.com/products/connector/ 下载。下下来后,只要把该包放在项目路径下即可,切莫在文件中import该包中内容,只要import Java.s转载 2016-11-19 19:26:22 · 3750 阅读 · 0 评论