自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Athenaer的专栏

专注架构设计

  • 博客(10)
  • 资源 (6)
  • 收藏
  • 关注

转载 Facebook早期投资者赞助20名年轻人弃学创业(草根网)

腾讯科技讯(童云)北京时间6月13日消息,找准目标,放弃学业,然后自己创业,这种模式在Faceobok联合创始人、哈佛大学辍学生马克·扎克伯格(Mark Zuckerberg)身上得到了良好的表现。身兼Facebook的早期投资者之一、PayPal联合创始人和对冲基金经理等多重身份的彼得·赛尔(Peter Thiel)在周三宣布了新的“Thiel Fellow”(赛尔伙伴)计划,向20名年龄不

2012-06-14 17:05:36 3042

转载 MapReduce Join联结实现

一、背景早在8月份的时候,我就做了一些MR的Join查询,但是发现回北京之后,2个月不用,居然有点生疏,所以今天早上又花时间好好看了一下,顺便写下这个文档,以供以后查阅。二、环境JDK 1.6、Linux操作系统、hadoop0.20.2三、资料数据在做这个Join查询的时候,必然涉及数据,我这里设计了2张表,分别较data.txt和info.txt,字段之间以\t划分。d

2012-06-12 11:22:45 4895 2

转载 Data-Intensive Text Processing with MapReduce第三章(6)-MapReduce算法设计-3.5相关连接(RELATIONAL JOINS)

3.5相关连接(RELATIONAL JOINS) Hadoop的一个流行应用领域是数据仓库。在一个企业级的环境中,一个数据仓库作为大量数据的存储地点,存储着从销售交易到商品清单几乎所有的信息。一般来说这些数据都是相关的,但是随着数据的日益增长,数据仓库被用来像存储无结构数据那样存储半结构化的数据(例如,查询日志)。数据仓库组成了提供决策支持的商业智能应用程序的基础。普遍认为知识是通过对历

2012-06-12 09:58:52 1095

原创 我的偶像--霍汶希

香港著名经纪人。14岁时即被星探发现,邀请其参与电影《七兄弟》饰演林青霞童年的角色,16岁进入模特界接拍广告,21岁开始担任经理人。现在是香港英皇娱乐公司艺人管理部总监,掌握着许多旗下艺人的“生死权”。旗下著名艺人包括谢霆锋、张家辉、容祖儿、Twins、黄耀明、林峰、关智斌、郑希怡、古巨基、蒋雅文、泳儿等。霍汶希在阿娇与陈冠希交往期间就曾经叮嘱过阿娇,说这个男人不可靠,但是无奈不能制止阿娇深陷情网

2012-06-11 14:50:13 2265 1

原创 我的偶像--周凯旋

周凯旋是原TOM公司第二大股东,TOM私有化之后退出。创办周凯旋基金会,并担任李嘉诚基金会董事。曾被《华尔街日报》评为2006年“亚洲商界女性十强”之一。1992年,她在北京引入李嘉诚资本,成就一个10万平方米20亿美元投资的东方广场而一举成名,而后涉入互联网业。2007年12月,周凯旋把一个新的投资机会摆在李嘉诚面前,李嘉诚只用了五分钟便决定投资Facebook。   周凯旋是一个男性化

2012-06-11 14:47:43 3728

转载 MapReduce算法设计(三)----相对频率计算

1.    相对频率的计算在我们使用应用程序来分析文章时,一个重要的使用就是文章主题分类。就是依据文章所要表达的主题进行分类。而一般的程序化分类 (非人工分类)所使用的方法是TF-IDF。这种方法依据字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。比如本文中多次出现MapReduce这一词,若是被搜索引擎分析时,它会计算出本文中MapRed

2012-06-08 11:55:35 4607

转载 MapReduce 算法设计(二)--- Pairs 和 Stripes

之前提到从MapReduce 可控和不可控的方面我们可以挖掘出一些有用的设计模式。在可控方面Key 和Value 数据结构的自定义给了我们很大的发挥空间。本篇要讲述的就是Pairs 和Stripes 。这两种设计模式并没有利用MapReduce 的框架机制,而是巧妙的利用数据结构来实现的。但是依然可以利用我们之前提到的Combiner 和In-Mapper Combining 来进行效率优化。

2012-06-08 11:47:24 1611

转载 MapReuce 算法设计(一)---Combiner 和 In-Mapper Combing

MapReduce 算法设计MapReduce 是一种编程模式,在很大程度上借鉴了函数式语言。它主要的思想是分而治之(divide and conquer)。将一个大的问题切分成很多小的问题,然后在集群中的各个节点上执行,这既是Map过程。在Map过程结束之后,会有一个Ruduce的过程,这个过程即将所有的Map阶段产出的结果进行汇集。上述过程可以说是一个显而易见的过程,所以说MapR

2012-06-08 11:25:00 1491

转载 怎样从10亿查询词找出出现频率最高的10个

1. 问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门的10个查询词;在歌曲库中统计下载率最高的前10首歌等等。2. 当前解决方案针对top k类问题,通常比较好的方案是【分治+trie树/hash+小顶堆】,即先将数据集按照hash方法分解成

2012-06-08 10:49:13 816

转载 超级牛人在华为工作十年的感悟

徐家骏是华为数据中心的头,技术超级牛人,一级部门总监,华为副总裁,年收入过千万。从一个应届毕业生,到年薪千万的华为副总裁,再到离开华为转战百度,徐家骏的十年从业经历和经验对于今年的应届毕业生来说绝对可资借鉴,我们从中也可以一窥华为公司的运作过程和徐的职业规划。世界上本没有好工作,下的功夫够了,好工作自会找上门的。上周,我正式提交了离职报告,准备给自己的职业生涯一个很大的转折,这是我长时间的思考

2012-06-06 10:50:02 13450

06—08清华大学计算机系上机复试题目

清华大学的计算机复试题目 最近三年的 不可不看的好资料 考研复试的人注意了

2009-03-20

浙大上机复试攻略宝典

各位准备考浙大的高手区们 可要好好看看了 这本书是我精心搜集的 由往届师兄精心总结的 考计算机的学子们的必备宝典

2009-03-12

上海交大07年计算机考研复试上机题

各位考上海交通大学计算机的准备复试的高手们 好好看看了 愿各位复试成功了

2009-03-12

清华07考研计算机复试上机试题

清华上机试题 复试时一定要好好参考啊 计算机考研同胞一定要好好看啊

2009-03-11

北京大学离散数学讲义

北京大学的离散数学可是很牛的 对于需要学习离散数学的人 这可是好东东

2009-03-11

windows 核心编程中文版

windows 核心编程 中文版的 刚看过还行的

2009-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除