自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Pan_Mars的博客

初学者

  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

原创 关于Partitioner(自定义partitioner编程实现数据自定义分区处理)

这个场景的前提是:比如一大批手机号码 需要分区,就是确定那个号码是那个省份的,所以在Maptask阶段是要把所有的省份的号码全部放在一个Map里面,然后提交给reducetask去处理,但是默认的是一个reducetask。 这时候就需要重写Partitioner的方法实现Maptask的去处。package cn.itcast.bigdata.mr.provinceflow;import java

2017-03-27 21:09:26 1267

原创 客户端提交MR程序job的流程

这里是我自己总结的简单的描述:Configuration conf = new Configuration(); // conf.set("mapreduce.framework.name", "yarn"); // conf.set("yarn.resoucemanager.hostname", "hadoop"); Job job = Job.getInstance(conf);

2017-03-27 21:03:19 1441

原创 关于MapReduce中的切片机制

MapReduce的每一个Spilt都回提交给一个Job 最后都有一个Client 关于Spilt 将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split),然后每一个split分配一个mapTask并行实例处理 这段逻辑及形成的切片规划描述文件,由FileInputFormat实现类的getSplits()方法完成,切片定义在InputFormat类中的g

2017-03-27 14:22:49 3687 4

原创 学习Hadoop笔记之一

学习的时候出现了几个问题,然后想想把记录了下来,能力有限,多多见谅。 1.关于关闭防火墙的问题: a) 因为虚拟机是要做服务器 内网链接 防火墙一般全部关闭 在很多时候不关闭防火墙会出现很多问题(端口被占用的问题!)所以要关闭防火墙! 2.关于主机网页登陆不上虚拟机的apache服务的时候,比如Tomact。 如果能Ping通的话,一般就是防火墙的问题,a) 必须要关闭虚拟机的防火墙

2017-03-23 21:26:27 373

原创 MapReduce 程序详解

Hadoop的第一课总是MapReduce,但是往往我们每次都是使用自带的例子跑一遍MapReduce程序,今天总与自己写了一个完整的程序。技术有限,多多指教。 1.导Jar包,将Hadoop的Jar导入到你的工程 2.开始写自己的主类,分为3个类。 第一个类WordcountMapperpackage cn.itcast.bigdata.mr.wcdemo;import java.io.

2017-03-23 11:24:16 510

广义线性模型

广义线性模型经典论文,学习必备。是一篇很好的文章,值得一看。

2018-01-30

开放性实验项目讲义

开放性实验项目: 大数据计算平台 Hadoop 搭建与应用实践

2017-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除