- 博客(8)
- 资源 (15)
- 收藏
- 关注
原创 ssh三大框架整合小结
1、添加所必须的jar包2、编写xml的spring配置文件2.1、spring的配置模板添加进配置文件(附带的例子或者参考手册)注意:不要确实命名空间<beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-insta
2017-03-30 20:14:50 595
原创 hadoop的Shuffle机制
如图mapreduce的shuffle和排序:Map task: 1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent)(80M),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件(这种小文件一旦写满,...
2017-03-28 21:44:39 436
原创 hadoop之Combiners编程
每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。注意:Com
2017-03-27 21:39:59 549
原创 hadoop之求和和自定义排序编程
排序MR默认是按key2进行排序的,如果想自定义排序规则,被排序的对象要实现WritableComparable接口,在compareTo方法中实现排序规则,然后将这个对象当做k2,即可完成排序。注:1.key1 value1 是map的输入;key2 value2是reduce的输入。需求分析:数据:[email protected] 60000 2014-02-2
2017-03-26 21:05:09 880
原创 hadoop之Partitioner编程
Mapreduce默认的partitioner是HashPartitioner。除了这个mapreduce还提供了3种partitioner。Partitioner是partitioner的基类,如果需要定制partitioner也需要继承该类。1.实现分区的步骤:1.1先分析一下具体的业务逻辑(如根据地区进行分区),确定大概有多少个分区;1.2首先书写一个类,它要继承org.ap
2017-03-25 22:20:57 447
原创 命令行模式与python交互模式
命令行模式与python交互模式1.在命令行模式下,可以执行 python 进入 Python 交互式环境,也可以执行 python hello.py 运行一个.py 文件。2.在 Python 交互式环境下,只能输入 Python 代码并立刻执行。3.Python 交互式环境会把每一行 Python 代码的结果自动打印出来,但是,直接运行 Python 代码却不会。例:在 Pytho...
2017-03-21 22:46:15 13515
原创 如何在eclipse中使用maven
1.解压eclipse(已经集成了maven插件)2.new -->project--->maven--->maven project3.下一步,如图:(别忘记勾上两个勾)4.如图:5.完成新建6.我们可以通过联网下载maven的包依赖,也可以手动添加已经下载好的包依赖,在centOS中,我们将包依赖解压到用户家目录下,如root用户,就解压在/root
2017-03-21 22:17:35 488
原创 hadoop的第一个程序WordCount
伪代码分析: 执行步骤: 1. map任务处理1.1读取输入文件内容,解析成key、value对。对输入文件的每一行,解析成key、value对。每一个键值对调用一次map函数。1.2写自己的逻辑,对输入的key、value处理,转换成新的key、value输出。1.3对输出的key、value进行分区。1.4对不同分区的数据,按照key进行排序、分组。相同key的...
2017-03-09 21:31:53 541
PPCoin: Peer-to-Peer Crypto-Currency with Proof-of-Stake
2017-09-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人