大数据实验
文章平均质量分 80
mmicky20110730
好几年没写博客了,准备重新开博,将这几年的一些经验和想法沉淀一下。
展开
-
大数据分析实验环境搭建
最近准备了一些数据,包括文本数据、数据库数据,有结构化的数据和非结构化的数据,开始逐步展开数据分析之旅途。当然,首先是大数据环境的搭建,下面略加介绍。1:软件版本hadoop2.2.0zooKeeper3.4.5 + HBase0.96.0hive0.11.0 + pig0.11.1 +mahout0.6sqoop1.4.4R + RstudioMySQL5.6.12oracle12ceclips原创 2014-05-13 15:22:38 · 3837 阅读 · 1 评论 -
日志处理实验
日志数据文件http://pan.baidu.com/s/1i3E7Zk5格式如下:175.44.30.93 - - [29/Sep/2013:00:10:16 +0800] "GET /structure/heap/ HTTP/1.1" 200 22539 "-" "Mozilla/4.0(compatible; MSIE 6.0; Windows NT 5.1; SV1;)"175.44.19原创 2014-05-13 15:23:26 · 1781 阅读 · 1 评论 -
MapReduce 代码经验集合
1:关于Reduce的输入输出类型在自定义的reduce中,输入的键值对要求与map中的输出键值对相对应。原因很好理解,reduce方法是对map方法的输出结果进行再次处理。对于reduce的输出,则可能根据需要产生一个新的输入输出类型。一个有趣的例子是hadoop2.0的hadoop-mapreduce-examples中的grep,通过InverseMapper将键值对 转换成 。原创 2014-05-13 15:23:28 · 1328 阅读 · 0 评论 -
Hadoop2.2.0生产环境模拟
1:规划centOS6.4上搭建hadoop2.2.0环境,java版本7UP21192.168.100.201 product201.product (namenode)192.168.100.202 product202.product (datanode)192.168.100.203 product203.product (datanode)192.168.100.204 product2原创 2014-05-13 15:22:48 · 1365 阅读 · 0 评论 -
日志处理实验之MapReduce方法
实验代码下载1:创建日志格式处理类KPIpackage hadoop2.logs;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashSet;import java.util.Locale;import java.util.Set;/原创 2014-05-13 15:23:30 · 1770 阅读 · 0 评论