2017年03月_-Heres-

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 ssh三大框架整合小结

1、添加所必须的jar包2、编写xml的spring配置文件2.1、spring的配置模板添加进配置文件（附带的例子或者参考手册）注意：不要确实命名空间<beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-insta

2017-03-30 20:14:50 595

原创 hadoop的Shuffle机制

如图mapreduce的shuffle和排序：Map task： 1.每个map有一个环形内存缓冲区，用于存储任务的输出。默认大小100MB（io.sort.mb属性），一旦达到阀值0.8（io.sort.spill.percent）（80M）,一个后台线程把内容写到(spill)磁盘的指定目录（mapred.local.dir）下的新建的一个溢出写文件（这种小文件一旦写满，...

2017-03-28 21:44:39 436

原创 hadoop之Combiners编程

每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。combiner最基本是实现本地key的归并，combiner具有类似本地的reduce功能。如果不用combiner，那么，所有的结果都是reduce完成，效率会相对低下。使用combiner，先完成的map会在本地聚合，提升速度。注意：Com

2017-03-27 21:39:59 549

原创 hadoop之求和和自定义排序编程

排序MR默认是按key2进行排序的，如果想自定义排序规则，被排序的对象要实现WritableComparable接口，在compareTo方法中实现排序规则，然后将这个对象当做k2，即可完成排序。注：1.key1 value1 是map的输入；key2 value2是reduce的输入。需求分析：数据：[email protected] 60000 2014-02-2

2017-03-26 21:05:09 880

原创 hadoop之Partitioner编程

Mapreduce默认的partitioner是HashPartitioner。除了这个mapreduce还提供了3种partitioner。Partitioner是partitioner的基类，如果需要定制partitioner也需要继承该类。1.实现分区的步骤：1.1先分析一下具体的业务逻辑（如根据地区进行分区），确定大概有多少个分区；1.2首先书写一个类，它要继承org.ap

2017-03-25 22:20:57 447

原创命令行模式与python交互模式

命令行模式与python交互模式1.在命令行模式下，可以执行 python 进入 Python 交互式环境，也可以执行 python hello.py 运行一个.py 文件。2.在 Python 交互式环境下，只能输入 Python 代码并立刻执行。3.Python 交互式环境会把每一行 Python 代码的结果自动打印出来，但是，直接运行 Python 代码却不会。例：在 Pytho...

2017-03-21 22:46:15 13515

原创如何在eclipse中使用maven

1.解压eclipse（已经集成了maven插件）2.new -->project--->maven--->maven project3.下一步，如图：（别忘记勾上两个勾）4.如图：5.完成新建6.我们可以通过联网下载maven的包依赖，也可以手动添加已经下载好的包依赖，在centOS中，我们将包依赖解压到用户家目录下，如root用户，就解压在/root

2017-03-21 22:17:35 488

原创 hadoop的第一个程序WordCount

伪代码分析：执行步骤： 1. map任务处理1.1读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。1.2写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。1.3对输出的key、value进行分区。1.4对不同分区的数据，按照key进行排序、分组。相同key的...

2017-03-09 21:31:53 541