hadoop
小虾米有鲨鱼梦
菜鸟学飞ing
展开
-
windows+vmware+centos7+hadoop2.7搭建伪分布式集群
折腾了几天,终于把伪分布式的Hadoop搭建起来了。对于没什么linux基础的我来说,这中间遇到的问题有时真能把我搞崩溃。皇天不负苦心人,总算是搭好了,wordcount也成功跑起来了。首先说明,我的电脑是windows系统,平时做开发装了JDK、Eclipse等,但是连虚拟机都没有。所以这次就从装虚拟机开始,把搭建Hadoop的步骤好好整理一下。原创 2015-09-21 18:23:55 · 4992 阅读 · 0 评论 -
MapReduce输入输出类型对应关系
如图Mapper的输出类型要和Combiner的输入类型对应; Combiner的输出类型要和Reducer的输入类型对应; Mapper的输出类型要和Reducer的输入类型对应; 如果没有单独设置Mapper的输出类型,则和Reducer一样都受如下配置信息控制。 job.setOutputKeyClass(Text.class); job.setOutput原创 2015-12-08 09:56:29 · 907 阅读 · 0 评论 -
MapReduce框架中Key-Value对象的重用
从代码看问题@Override protected void reduce(Text key, Iterable<Text> values,Context context) throws IOException, InterruptedException { List<Text> list =new ArrayList<Stri原创 2015-12-24 14:50:09 · 2236 阅读 · 0 评论 -
一共81个,开源大数据处理工具汇总
原文出处: 36大数据:一共81个,开源大数据处理工具汇总(上) 36大数据:一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等第一部分查询引擎一、Phoenix贡献者::Salesforce简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JD转载 2015-12-24 15:14:32 · 3672 阅读 · 0 评论 -
Mahout In Action中ItemCFHadoop流程图
见图原创 2015-12-26 15:24:40 · 726 阅读 · 0 评论 -
Hadoop map调优参数
参数:io.sort.mb(default 100) 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。 而是会利用到了内存buffer来进行已经产生的部分结果的缓存, 并在内存buffer中进行一些预排序来优化整个map的性能。 每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该buffer中, 这个buffer默认转载 2015-12-26 20:13:20 · 1237 阅读 · 0 评论