自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(139)
  • 收藏
  • 关注

Hadoop 0.21如何运行单个test case

研究Hadoop 0.21代码时,很多情况下需要运行单个test case,如果新增了功能要测试case能否通过或者自己写的test case需要测试等。而把test case全部运行一遍是很耗时的,严重影响开发效率。这里提供一个0.21 mapreduce的一个diff文件,用以修改build.xml文件,打上patch后即可在本地运行单个test case了。Index: bui...

2011-07-30 16:34:00 107

五年,我两次被跳槽

五年,我两次被跳槽如今,我进入英特尔已经五年了。这五年里,我经历了三次岗位转换,每次转换都是被上司推荐到更合适和更高阶的职位上去,可谓是“被跳槽冶。我知道,在英特尔,我的经历绝不是个案,但对于我过去的经历来说,这样的遭遇,几乎可以用“惊艳冶来形容———两次转岗,都是自己的老板推动我挑战自己,成就真我。“屈尊冶修电脑的首席工程师黄波·在亚太研发中心工作,经历了许多难忘的事情。有一件关于黄波的小事...

2011-07-29 15:52:00 244

不让伤害再次发生

不让伤害再次发生我是英特尔成都工厂的第二批员工,在上海工厂学习培训之后,于2005 年加入到成都封装测试工厂的启动和生产工作中,到2010 年,我已经在成都工厂工作了五年半。在这五年半时间里,我始终在封装工程部任工程师,负责站点的设备、工艺和质量,确保站点按照相关计划和流程完成芯片的封装工作。我觉得,我的工作对象,或者说我的客户就是英特尔的一线操作员,我们要确保操作员在一个安全、高效、舒适的环境...

2011-07-29 15:39:00 65

芯故事 心感动:英特尔企业文化的力量

芯故事 心感动:英特尔企业文化的力量裴晓风编著ISBN 978-7-121-13101-1 2011 年7 月出版定价:49. 00 元16开400页内容简介本书通过英特尔在华员工感人的小故事,展示了英特尔中国二十五年的发展历程、战略投资、本土化、产业合作等鲜为人知的多个侧面,也从另外一个角度透视了中国IT产业的起步和发展的诸多根根节节;书中对英特尔企业文化精髓和魅力做了生动的展...

2011-07-29 15:23:00 338

面试笔试题——12个工厂分布

面试笔试题——12个工厂分布 12个工厂分布在一条东西向高速公路的两侧,工厂距离公路最西端的距离分别是0、4、5、10、12、18、27、30、31、38、39、47.在这12个工厂中选取3个原料供应厂,使得剩余工厂到最近的原料供应厂距离之和最短,问应该选哪三个厂 ?(需注意不知道工厂的分布情况!) 上面是在群里面贴出来的,自己就收藏了一下,想等有空的时候想想。下面我就解...

2011-07-28 17:42:00 281

初始化游戏状态数据二

初始化游戏状态数据下面为该AbstractBoard实现3个子类。1.矩阵排列的方块矩阵排列的方块会填满二维数组的每个数组元素,只是把四周留空即可,该子类的代码如下。程序清单:codes\18\Link\src\org\crazyit\link\board\impl\FullBoard.javapublic class FullBoard extendsAbstractBoard{ ...

2011-07-28 17:16:00 115

初始化游戏状态数据

初始化游戏状态数据为了初始化游戏状态,程序需要创建一个Piece[][]数组,为此程序定义一个AbstractBoard抽象类,该抽象类的代码如下。程序清单:codes\18\Link\src\org\crazyit\link\board\AbstractBoard.javapublic abstract class AbstractBoard{ //定义一个抽象方法, 让子类去实现 ...

2011-07-28 17:09:00 168

一场媲美“超女”海选的招聘狂潮

一场媲美“超女”海选的招聘狂潮在工程院成立之初,张宏江和他的团队遇到的最大困难是人手短缺。工程院的牌子挂起来之后,全部人手——连张宏江在内不到30人——马上投入到第一个紧急任务中。他们要赶在2004年3月之前,把来自研究院的7个项目做成产品模型拿到TechFest上去展示。张宏江的计划是,在工程院成立后的3个月内招来70~100人,因此,最初的20多名员工在争分夺秒开发项目的同时,还肩负着招兵买...

2011-07-27 18:05:00 139

开发工具集合

从现在开始,在此收集开发工具,慢慢补充!数据库测试数据生成工具:SQL+Data+Generator+1,很好用,能够识别外键,直接生成数据,也可以自定义字段。 官网:http://www.red-gate.com/products/sql-development/sql-data-generator/...

2011-07-27 10:33:00 96

开发工具集合

从现在开始,在此收集开发工具,慢慢补充!数据库测试数据生成工具:SQL+Data+Generator+1,很好用,能够识别外键,直接生成数据,也可以自定义字段。 官网:http://www.red-gate.com/products/sql-development/sql-data-generator/...

2011-07-27 10:33:00 44

开发工具集合

从现在开始,在此收集开发工具,慢慢补充!数据库测试数据生成工具:SQL+Data+Generator+1,很好用,能够识别外键,直接生成数据,也可以自定义字段。 官网:http://www.red-gate.com/products/sql-development/sql-data-generator/...

2011-07-27 10:33:00 66

图数据挖掘之图信息获取及存储

图数据挖掘——图信息获取及存储 在基本概念的文章中介绍了图和图数据挖掘的概念,可能有不是很到位,甚至有些观点存在偏差,希望大家多多指出,相互学习。本篇将介绍如何获取图的信息和存储。 在我们现实生活中,图是无处不在。比如:城市交通、当前比较火的高铁、电子地图以及人与人之间的关系等。这些都是可以通过图来进行描述,下面将介绍如何从这些中获取图的信息。最近有些网友问我电子地图中如何获取图信息,我不知道是...

2011-07-27 08:24:00 135

lucene-搜索过程源码解析-Score树

1.总述:IndexSearch.search(createWeight(query), filter, n)过程 |--public TopDocs search(Weight weight, Filter filter, final int nDocs) |-- TopScoreDocCollector collector = TopScoreDocCollector.create(n...

2011-07-26 20:14:00 153

Postgresql数据库全文索引初试【对象关系型数据库管理系统】

在postgresql中使用全文索引介绍 在近期的开发中由于需要处理比较大的数据量,但是由于没有资金购买商业数据库,而且最好不能用盗版的,所以没办法就用了这个Postgresql对象关系型数据库。首先介绍一下这个数据库,百度百科:“PostgreSQL是以加州大学伯克利分校计算机系开发的 POSTGRES,版本 4.2为基础的对象关系型数据库管理系统(ORDBMS)。PostgreSQL支...

2011-07-26 20:12:00 105

数据收集

数据收集Mr.林:数据收集是按照确定的数据分析内容,收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,第二手数据主要指经过加工整理后得到的数据。一般数据来源主要有以下几种方式,如图1-4所示。 数据库每个公司都有自己的业务数据库,包含从公司成立以来产生的相关业务数据。这个业务数据库就是一个庞大的数据资源,需要...

2011-07-26 18:32:00 145

数据展现

数据展现小白:您刚才讲通过分析,隐藏在数据内部的关系和规律就会逐渐浮现出来,那么通 过什么方式展现出这些关系和规律,才能让别人一目了然呢?Mr.林:不错,孺子可教也!这就是我接下来要说的数据展现了。众所周知,每个人看 待事物都有自己的理解方式,所以数据分析师在展现结果的时候一定要保证绝大部分人对结果的理解是一致的。一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这...

2011-07-26 18:26:00 147

堆排序详解【java版附流程图】

堆排序详解——java版 近期一直再看别人的源码,无意中发现了他里面使用了堆排序算法,由于以前对于堆的排序问题都只是听过,而没有真正的理解过它和实践过它。于是也借本次机会了解了一下堆排序的算法。其实堆的排序是通过二叉树的形式对元素进行排序,它的规律是:ki>=k2i并且ki>=k2i+1或者是ki<=k2i并且ki<=k2i+1,意思就是它的父节点一定大于(小于)它的...

2011-07-26 15:33:00 490

Pluto2.0 Container的原理一

pluto2.0的portlet contanier其实就是构建servlet contaniter之上,当在tomcat中配置好pluto2.0并启动后,tomcat的webapps下就有一个名为pluto的web项目以后我们要运行的portlet实际上就是运行在这个项目之中,在这个项目下两个关于这个容器的配置文件,分别是pluto-portal-driver-config.xml和pluto-...

2011-07-26 15:12:00 122

dbxml【XML数据库初探】

DBXML——xml数据库初探下载地址:http://www.oracle.com/us/products/database/index.html一下将就两个方面介绍一下DBXML:什么是dbxml、dbxml用法简单介绍。1、什么是dbxml dbxml全称是:Berkeley DB XML,是由oracle开发的一款用于存储xml的数据库。它可以在多个平台下进行开发,它支持c/c++、ja...

2011-07-26 09:07:00 305

neo4j——图数据库初探

图数据库neo4j初探(下载地址:http://neo4j.org/ )本篇将初步介绍一下图数据库neo4j,将分一下几点介绍:什么是neo4j、neo4j作用、neo4j用法简单介绍1、什么是neo4jneo4j是一种图数据库,同时它也是一种嵌入式数据库。它对图数据是以节点和边(关系)模式进行存储。每个节点可以包含一系列信息,通过Node类里面的setProperty()方法对节点信息...

2011-07-26 09:02:00 200

Xml解析及导入数据图总结

大型XML数据的解析以及由XML数据转换到数据库数据探索 一下将分两点介绍:1、大型XML的解析,2、XML数据存储到数据库1、大型XML的解析 解析Xml的方法包括如下几种: 1)、DOM4J2)、JDOM3)、DOM4)、SAX5)、自己编写适合的解析器DOM4J,JDOM,DOM解析:优点:容易使用,容易上手,对数据的处理简单缺点:不能用于解析大型的XML分析:由于这三...

2011-07-26 08:48:00 85

图数据挖掘之基本概念

图数据挖掘——基本概念 去年的这个时候我第一次听到图数据挖掘这个词,当时有点茫然,也产生了很多对它的错误理解,究竟什么是图,而什么又是图数据挖掘?这篇将给大家介绍。图,就是我们在数据结构中学到的图,它是一中存储信息的结构,在数据结构中它是被安排在后面的章节,所以很容易被我给忘记。图,在数据结构中的定义的基本意思是这样的:图中的每个节点都可以有多个父节点,多个子节点。所以图的结构是非常灵活的,它包...

2011-07-26 08:25:00 232

“三低”用户养活的互联网

“三低”用户养活的互联网在上述因中国网民结构而创造的用户娱乐天堂里,发生着一个有意思的现象:偏“娱乐”、偏“低龄”的中国互联网,区别于美国等其他国家的最大特点就是,看似没有支付能力的底层“三低”(指年龄低、收入低、文化水平低)用户,反而成为了支撑中国互联网企业盈利(典型例子就是短信和网游)的最大群体。笔者在DoNews(中国最大的IT写作社区)5G上所结识的一位朋友——麦田(原SNS社区蚂蚁网...

2011-07-25 16:58:00 189

时机论:早起的鸟儿也要选对“用户”季节

时机论:早起的鸟儿也要选对“用户”季节从很早开始,大家都说互联网是中国和美国保持同步的一次机会。因为信息的快速传播,我们有了一种“同步”的假象:美国各种会议和媒体上的概念,当天就可以在中国被关注;硅谷新兴的应用,要不了两个月,我们可能就有了复制的本土版本,看似一切具备,只欠东风。而这最重要的东风恰恰是中美互联网用户(网民)需求的差距。优秀的成功人士几乎都具备敏锐的商业嗅觉和极强的时机把握能力,...

2011-07-25 16:52:00 74

互联网之达芬奇密码:浪潮揭秘:与中国五亿网民互为影响的互联网DNA

互联网之达芬奇密码:浪潮揭秘:与中国五亿网民互为影响的互联网DNAMull He著ISBN 978-7-121-13526-22011年6月出版定价:39.00元16开232页宣传语:《人人都是产品经理》后,电子工业出版社又一力作,探索互联网产业背后驱动:真正的用户需求!内容简介也许曾经是互联网改变了我们,现在,将由我们改变互联网。互联网在中国的短短十多年里,经历了从门户网...

2011-07-25 16:45:00 91

一种图存储结构【看了之后你会对图的结构有新的认识】

通过一个对象Graph类将图的全部信息封装起来。在该类中要注意几个属性:(首先说明这中存储结构对于大型图比较有效,图的所有信息是存储在数据库中的,所以图的节点数可以从数据库中取得,对于临时图这种结构作用不是很大) public float nodePrestige[]; public char nodeType[]; public int nodeIndeg[]; ...

2011-07-25 09:15:00 111

温州高铁事故再一次用N条生命有力地证明了中国高铁具有自主的知识产权。绝对不存在剽窃其它国家的先进的技术成果。...

温州高铁事故再一次用N条生命有力地证明了中国高铁具有自主的知识产权。绝对不存在剽窃其它国家的先进的技术成果。

2011-07-25 08:55:00 174

shell与awk

sort命令,参数-u去掉结果中得重复行,-t,改变分割符,-n根据数字大小排序,-k制定排序的域.eg: sort -t: -k3n GARGO.db #根据第三域的数字大小排序sort -t: -k3nr GARGO.db #根据第三域的数字大小排序,将排序结果逆向显示uniq命令 -c打印每行在文本中重复出现的次数,-d只显示重复记录,每个重复记录只出现一次,-u只显示没有重复的记录。...

2011-07-23 18:20:00 48

Data-Intensive Text Processing with MapReduce第三章(7)-3.6总结

这章提供一个设计MapReduce算法的指导。特别地,对于常见问题我们展示了很多设计模式来解决。总的来说,它们是:“In-mapper combining”(map内合并),combiner函数被移到了mapper里面,mapper通过多个输入记录聚集部分结果,然后只有在局部聚集达到一定量后再发送中间键值对,而不是发送每一个输入键值对的中间输出。相关的模式“pairs”和“...

2011-07-23 10:21:00 96

Data-Intensive Text Processing with MapReduce第三章(7)-3.6总结

这章提供一个设计MapReduce算法的指导。特别地,对于常见问题我们展示了很多设计模式来解决。总的来说,它们是:“In-mapper combining”(map内合并),combiner函数被移到了mapper里面,mapper通过多个输入记录聚集部分结果,然后只有在局部聚集达到一定量后再发送中间键值对,而不是发送每一个输入键值对的中间输出。相关的模式“pairs”和“...

2011-07-23 10:21:00 63

Data-Intensive Text Processing with MapReduce第三章(6)-MapReduce算法设计-3.5相关连接(RELATIONAL JOINS)...

3.5相关连接(RELATIONAL JOINS)Hadoop的一个流行应用领域是数据仓库。在一个企业级的环境中,一个数据仓库作为大量数据的存储地点,存储着从销售交易到商品清单几乎所有的信息。一般来说这些数据都是相关的,但是随着数据的日益增长,数据仓库被用来像存储无结构数据那样存储半结构化的数据(例如,查询日志)。数据仓库组成了提供决策支持的商业智能应用程序的基础。普遍认为知识是通过对历史、现...

2011-07-23 10:01:00 73

Data-Intensive Text Processing with MapReduce第三章(6)-MapReduce算法设计-3.5相关连接(RELATIONAL JOINS)...

3.5相关连接(RELATIONAL JOINS)Hadoop的一个流行应用领域是数据仓库。在一个企业级的环境中,一个数据仓库作为大量数据的存储地点,存储着从销售交易到商品清单几乎所有的信息。一般来说这些数据都是相关的,但是随着数据的日益增长,数据仓库被用来像存储无结构数据那样存储半结构化的数据(例如,查询日志)。数据仓库组成了提供决策支持的商业智能应用程序的基础。普遍认为知识是通过对历史、现...

2011-07-23 10:01:00 65

Data-Intensive Text Processing with MapReduce第三章(5)-MapReduce算法设计-3.4 二次排序

3.4 二次排序MapReduce在清洗(shuffle)和排序(sort)阶段用键来为中间键值对排序,如果reducer中的计算依赖于排序顺序的话就非常简单(即之前章节说到的顺序反转模式)。然而,如果除了用键排序之外,我们也需要用值来排序呢?Google的MapReduce实现提供了内置的二次排序的机制,它可以保证值是以排序顺序到达的。Hadoop,不幸的是没有内置这种机制。(t1,m1, ...

2011-07-23 09:31:00 99

Data-Intensive Text Processing with MapReduce第三章(5)-MapReduce算法设计-3.4 二次排序

3.4 二次排序MapReduce在清洗(shuffle)和排序(sort)阶段用键来为中间键值对排序,如果reducer中的计算依赖于排序顺序的话就非常简单(即之前章节说到的顺序反转模式)。然而,如果除了用键排序之外,我们也需要用值来排序呢?Google的MapReduce实现提供了内置的二次排序的机制,它可以保证值是以排序顺序到达的。Hadoop,不幸的是没有内置这种机制。(t1,m1, ...

2011-07-23 09:31:00 47

Data-Intensive Text Processing with MapReduce第三章(4)-MapReduce算法设计-3.3计算相对频率...

3.3计算相对频率让我们在之前讲到的pairs和stripes算法的基础上继续在大型数据集上构建重现矩阵M。回忆在这个大的n×n矩阵中华,当n=|V|(词典大小),元素mij包含单词wi与wj在具体语境下共同出现的次数。无约束的计数的缺点是它没有考虑到实际上有些词会比其它词更加频繁地出现。单词wi可能比wj出现的次数多因为其中一个可能是常用词。一个简单的解决方法是把无约束的计数转变为相对频率,...

2011-07-23 09:23:00 123

Data-Intensive Text Processing with MapReduce第三章(4)-MapReduce算法设计-3.3计算相对频率...

3.3计算相对频率让我们在之前讲到的pairs和stripes算法的基础上继续在大型数据集上构建重现矩阵M。回忆在这个大的n×n矩阵中华,当n=|V|(词典大小),元素mij包含单词wi与wj在具体语境下共同出现的次数。无约束的计数的缺点是它没有考虑到实际上有些词会比其它词更加频繁地出现。单词wi可能比wj出现的次数多因为其中一个可能是常用词。一个简单的解决方法是把无约束的计数转变为相对频率,...

2011-07-23 09:23:00 87

Data-Intensive Text Processing with MapReduce第三章(3)-MapReduce算法设计-3.2 PAIRS(对)和STRIPES(条纹)...

3.2 PAIRS(对)和STRIPES(条纹)在MapReduce程序中同步的一个普遍做法是通过构建复杂的键和值这样一个途径来使数据自然地适应执行框架。我们在之前的章节中涉及到这个技术,即把部分总数和计数“打包”成一个复合值(例如pair),依次从mapper传到combiner再传到reducer。以之前的出版物为基础【54,94】,这节介绍两个常见的设计模式,我们称为pairs(对)和s...

2011-07-23 08:47:00 145

Data-Intensive Text Processing with MapReduce第三章(3)-MapReduce算法设计-3.2 PAIRS(对)和STRIPES(条纹)...

3.2 PAIRS(对)和STRIPES(条纹)在MapReduce程序中同步的一个普遍做法是通过构建复杂的键和值这样一个途径来使数据自然地适应执行框架。我们在之前的章节中涉及到这个技术,即把部分总数和计数“打包”成一个复合值(例如pair),依次从mapper传到combiner再传到reducer。以之前的出版物为基础【54,94】,这节介绍两个常见的设计模式,我们称为pairs(对)和s...

2011-07-23 08:47:00 132

Data-Intensive Text Processing with MapReduce第三章(2)-MapReduce算法设计-3.1局部聚集

3.1局部聚集(local aggregation)在数据密集的分布式处理环境中,从产生它们的进程到最后消费它们的进程,中间结果的交互是同步中重要的一个方面。在一个集群环境中,除了令人尴尬的并行问题,其它都必须通过网络传输数据。此外,在Hadoop,中间结果是先写到本地磁盘然后再用网络发送出去。因为网络和磁盘因素相对其它因素更加容易成为评价,所以减少中间数据的传输即提高了算法的效率。在MapR...

2011-07-22 22:47:00 85

Data-Intensive Text Processing with MapReduce第三章(2)-MapReduce算法设计-3.1局部聚集

3.1局部聚集(local aggregation)在数据密集的分布式处理环境中,从产生它们的进程到最后消费它们的进程,中间结果的交互是同步中重要的一个方面。在一个集群环境中,除了令人尴尬的并行问题,其它都必须通过网络传输数据。此外,在Hadoop,中间结果是先写到本地磁盘然后再用网络发送出去。因为网络和磁盘因素相对其它因素更加容易成为评价,所以减少中间数据的传输即提高了算法的效率。在MapR...

2011-07-22 22:47:00 59

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除