自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

翻译 Data-Intensive Text Processing with MapReduce第三章(4)-SECONDARY SORTING

3.4 SECONDARY SORTINGMapReduce在清洗(shuffle)和排序(sort)阶段用键来为中间键值对排序,如果reducer中的计算依赖于排序顺序的话就非常简单(即之前章节说到的顺序反转模式)。然而,如果除了用键排序之外,我们也需要用值来排序呢?Google的MapReduce实现提供了内置的二次排序的机制,它可以保证值是以排序顺序到达的。Hadoop,不幸的是没有内置

2011-10-29 20:21:00 970

翻译 Data-Intensive Text Processing with MapReduce第三章(3)——COMPUTING RELATIVE FREQUENCIES

3.3COMPUTING RELATIVE FREQUENCIES 计算相对频率让我们在之前讲到的pairs和stripes算法的基础上继续在大型数据集上构建重现矩阵M。回忆在这个大的n×n矩阵模型,当n=|V|(词典大小),元素mij包含单词wi与wj在具体语境下共同出现的次数。无约束的计数的缺点是它没有考虑到实际上有些词会比其它词更加频繁地出现。单词wi可能比wj出现的次数多因为其中一个可

2011-10-26 19:57:31 1276

翻译 Data-Intensive Text Processing with MapReduce 第三章(2)——PAIRS AND STRIPES

3.2 PAIRS AND STRIPES 在MapReduce程序中同步的一个普遍做法是构建复杂的键和值,通过这种方式使得执行框架可以将需要计算的数据自然的放到一起。我们在之前的章节中涉及到这个技术,即把部分总数和计数“打包”成一个复合值(例如pair),依次从mapper传到combiner再传到reducer。以之前的出版物为基础【54,94】,这节介绍两个常见的设计模式,我们称为p

2011-10-23 21:15:55 2187

翻译 Data-Intensive Text Processing with MapReduce 第三章(1)——local aggregation

3.1本地聚集(local aggregation) 在数据密集的分布式处理环境中,从产生它们的进程到最后消费它们的进程,中间结果的交互是同步中重要的一个方面。在一个集群环境中,除了令人尴尬的并行问题,其它都必须通过网络传输数据。此外,在Hadoop,中间结果是先写到本地磁盘然后再用网络发送出去。因为网络和磁盘因素相对其它因素更加容易成为评价,所以减少中间数据的传输即提高了算法的效率。在M

2011-10-23 17:18:21 1740

原创 十六岁的博士

今天看了一个有关16岁博士的报道,中国最年轻的博士。      他的经历让我既感到羡慕,他的心理让我失望。我想这不仅是我一个人的态度,可能是多数观众的同感。他有一个有才的father,一天24小时的二人教育让他吸收知识的速度如坐火箭,9岁进大学,16岁读博,你能更厉害些么?(呵呵,那里是羡慕,都有不少嫉妒了。)这也反映出了中国教育的软肋。古人十年寒窗便可回报社会,而在如今科技、教育、管理等飞速

2011-10-22 19:15:47 1235 1

原创 Hadoop命令汇总

Hadoop命令汇总 ============ 此贴系个人总结贴===============查看集群状况:hadoop dfsadmin -report关闭安全模式:hadoop dfsadmin -safemode leave进入安全模式:hadoop dfsadmin -safemode enter格式namenode: hadoop namenode -format

2011-10-20 11:49:19 828 1

原创 Hadoop:File xxx could only be replicated to 0 nodes, instead of 1

近几日,重新搭建Hadoop,原本以为搭建成功,start-all.sh没有问题,hadoop fs -mkdir xxx / 命令也没有问题,当然删除命令也没有问题。但是put命令就会出错,报错如下:[root@beth1 ~]# hadoop fs -put abc.txt /11/10/18 19:27:03 WARN hdfs.DFSClient: DataStreamer Exc

2011-10-19 11:57:42 5144 8

原创 找回JPS命令

Linux下 安装好了jdk,输入jps时,系统提示“-bash: jps: command not found”。几经查找,得知jps命令是jdk下bin目录中的一个可执行文件,但发现自己安装的 jre-6u17-linux-i586.bin 里面根本没有,需要安装jr

2011-10-15 10:23:19 15863

原创 Linux 常用命令

============ 此贴系个人总结贴=============== 查看磁盘剩余空间:root@Linux var]# df -hl 文件系统 容量 已用  可用  已用%  挂载点/dev/hdb2 75G 75G    0        100%    //dev/hdb1 99M 9.2M   85M    10%     /bootnone       2

2011-10-12 10:05:57 676

原创 linux修改语言

如果安装后有乱码现象,那么多半是语言选择有问题。修改语言为英语的方法:# vi  /etc/sysconfig/i18nLANG="en_US.UTF-8"SYSFONT="latarcyrheb-sun16" 其中,en_US就是指英文啦!

2011-10-11 21:52:31 612

原创 Linux 修改IP和hostname

今日装了Redhat5,装完后要配置IP,网上找了资料,并亲试之。效果不错,故记载之,以备后用。修改IP地址及MAC地址:a)        vim /etc/sysconfig/network-scripts/ifcfg-eth0b)        DEVICE

2011-10-11 21:29:01 1049

原创 线程间操作无效: 从不是创建控件“”的线程访问它~~~的解决方法

VS 08里没有这个问题,05里会出这个问题的,貌似是为了安全~哦,现在知道的解决方法有两个~第一:Control.CheckForIllegalCrossThreadCalls = false;线程开始的时候加这么一句,OK,看不到错误了~啥都能

2011-10-10 16:46:11 592

emf-runtime-2.4.2.zip

emf-runtime-2.4.2.zip支持eclipse

2011-05-17

GEF-runtime-3.2.zip

GEF-runtime-3.2.zip支持eclipse

2011-05-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除