2008年09月_pengpengfly

转载数学之美（系列二十二）之由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

数学之美系列二十二由电视剧《暗算》所想到的 — 谈谈密码学的数学原理2007年9月13日下午 09:00:00uT("time5847627679475780351");发表者：Google（谷歌）研究员吴军前一阵子看了电视剧《暗算》，蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学，故事本身不错，但是有点故弄玄虚。不过有一点是对的，就是当今的密码学是以数学为

2008-09-27 09:51:00 684

转载 Hadoop 简介

原文链接：http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html 曹羽中 ([email protected]), 软件工程师, IBM中国开发中心2008 年 5 月 22 日Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架，借助于 Hadoop, 程序

2008-09-29 14:29:00 1103

原创 Nutch使用方法简介

Nutch使用方法简介目前Nutch采用Sehll的启动方式，如果您使用的是Windows系统，那么首先需要安装Cygwin。本文就以在Windows中为例，介绍Nutch的安装和使用方法。 (1)准备需要的软件列表 Cygwin (下载地址:http://www.cygwin.com/se

2008-09-29 10:19:00 6059 4

转载 LINUX的内核升级

LINUX内核升级　　Linux的一个重要的特点就是其源代码的公开性，全世界任何一个软件工程师都可以将自己认为优秀的代码加入到其中，由此引发的一个明显的好处就是Linux修补漏洞的快速以及对最新软件技术的利用。而Linux的内核则是这些特点的最直接的代表。　　为什么要升级内核　　正如它的名字的字面意义，Linux的内核承担着Linux操作系统的最为核心的任务，是其它程序和硬件等运行过程中

2008-09-27 16:32:00 510

转载数学之美系列（二十三）之输入一个汉字需要敲多少个键 — 谈谈香农第一定律

数学之美系列二十三输入一个汉字需要敲多少个键 — 谈谈香农第一定律2007年12月3日上午 10:05:00uT("time2075691283498775489");发表者：Google（谷歌）研究员吴军今天各种汉字输入法已经很成熟了，随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法，从理论上分析一下，输入汉字到底能有多快。我们假

2008-09-27 09:52:00 640

转载数学之美（系列二十一）之布隆过滤器（Bloom Filter）

数学之美系列二十一－布隆过滤器（Bloom Filter）2007年7月3日上午 09:35:00uT("time4444440318463911176");发表者：Google（谷歌）研究员吴军在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在

2008-09-27 09:51:00 835

转载数学之美（系列二十）之自然语言处理的教父马库斯

数学之美系列二十－自然语言处理的教父马库斯2007年4月13日下午 07:03:00uT("time117646227894766702");发表者：Google 研究员，吴军我们在前面的系列中介绍和提到了一些年轻有为的科学家，迈克尔·柯林斯，艾里克·布莱尔，大卫·雅让斯基，拉纳帕提等等，他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就

2008-09-27 09:49:00 523

转载数学之美（系列十九）之马尔可夫链的扩展贝叶斯网络 (Bayesian Networks)

数学之美系列十九－马尔可夫链的扩展贝叶斯网络 (Bayesian Networks)2007年1月28日下午 09:53:00uT("time116999293254246877");发表者：Google 研究员，吴军我们在前面的系列中多次提到马尔可夫链 (MarkovChain)，它描述了一种状态序列，其每个状态值取决于前面有限个状态。这种模型，对很多实际问题

2008-09-27 09:48:00 533

转载数学之美（系列十八）之矩阵运算和文本处理中的分类问题

数学之美系列十八－矩阵运算和文本处理中的分类问题2007年1月1日下午 03:10:00uT("time116763611149553424");发表者：Google 研究员，吴军我在大学学习线性代数时，实在想不出它除了告诉我们如何解线性方程外，还能有什么别的用途。关于矩阵的许多概念，比如特征值等等，更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法，还是

2008-09-27 09:47:00 646

转载数学之美（系列十七）之闪光的不一定是金子谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

数学之美系列十七闪光的不一定是金子谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)2006年11月28日上午 03:18:00uT("time116465599638733502");Google 研究员吴军自从有了搜索引擎，就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的，用句俗话说，

2008-09-27 09:46:00 535

转载数学之美（系列十六（下））之不要把所有的鸡蛋放在一个篮子里　最大熵模型

数学之美系列十六（下）－不要把所有的鸡蛋放在一个篮子里　最大熵模型2006年11月16日上午 06:50:00uT("time116362474398958433");发表者：Google 研究员，吴军我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答，就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式，现在只需要确定指数函

2008-09-27 09:45:00 528

转载数学之美（系列十六（上））之不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

数学之美系列十六（上）不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型2006年10月8日上午 07:27:00uT("time115890519154290698");发表者：Google 研究员，吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。在数学上，这个原理称为最大熵原理(the maximum

2008-09-27 09:42:00 488

转载数学之美（十四）之谈谈数学模型的重要性

数学之美十四谈谈数学模型的重要性2006年8月9日上午 09:12:00uT("time115495678350668502");发表者：吴军，Google 研究员 [注：一直关注数学之美系列的读者可能已经发现，我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性，今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题，下面的内容是我讲座的

2008-09-25 21:43:00 531

转载数学之美（系列十五）之繁与简自然语言处理的几位精英

数学之美系列十五繁与简自然语言处理的几位精英2006年8月23日下午 11:22:00uT("time115634657041368311");发表者：吴军，Google 研究员我在数学之美系列中一直强调的一个好方法就是简单。但是，事实上，自然语言处理中也有一些特例，比如有些学者将一个问题研究到极致，执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价

2008-09-25 21:43:00 725 1

转载数学之美（系列 12）之余弦定理和新闻的分类

数学之美系列 12 - 余弦定理和新闻的分类2006年7月20日上午 10:12:00uT("time115337391327964752");发表者：吴军，Google 研究员余弦定理和新闻的分类似乎是两件八杆子打不着的事，但是它们确有紧密的联系。具体说，新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到

2008-09-25 21:41:00 457

转载数学之美（系列十三）之信息指纹及其应用

数学之美系列十三信息指纹及其应用2006年8月3日上午 11:17:00uT("time115457675609630123");发表者：吴军，Google 研究员任何一段信息文字，都可以对应一个不太长的随机数，作为区别它和其它信息的指纹（Fingerprint)。只要算法设计的好，任何两段信息的指纹都很难重复，就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中

2008-09-25 21:41:00 441

转载数学之美（系列十一）之 Google 阿卡 47 的制造者阿米特.辛格博士

数学之美系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士2006年7月10日上午 09:52:00uT("time115244161804028598");发表者：Google 研究员，吴军枪迷或者看过尼古拉斯.凯奇（Nicolas Cage)主演的电影“战争之王”（Lord ofWar)的人也许还记得影片开头的一段话：（在所有轻武器中，）最有名的是阿

2008-09-25 21:38:00 493

转载数学之美（系列十）之有限状态机和地址识别

数学之美系列十有限状态机和地址识别2006年7月5日上午 09:09:00uT("time115206306165358127");发表者：吴军，Google 研究员地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些状态（节点）和连接这些状态的有向弧。下图

2008-09-25 21:36:00 597

转载数学之美（系列九）之如何确定网页和查询的相关性

数学之美系列九 -- 如何确定网页和查询的相关性2006年6月27日上午 09:53:00uT("time115137628966847870");发表者：吴军，Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面，一个有一定编程基础的读者应该可以

2008-09-25 21:35:00 440

转载数学之美（系列八）之贾里尼克的故事和现代语言处理

数学之美系列八-- 贾里尼克的故事和现代语言处理2006年6月8日上午 09:15:00uT("time114968814161581622");发表者：Google 研究员，吴军读者也许注意到了，我们在前面的系列中多次提到了贾里尼克这个名字。事实上，现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里，介绍贾里尼克本人。在这里我不想列举他

2008-09-25 21:34:00 967

转载数学之美（系列七）之信息论在信息处理中的应用

数学之美系列七 -- 信息论在信息处理中的应用2006年5月25日上午 07:56:00uT("time114822338683782989");发表者：吴军, Google 研究员我们已经介绍了信息熵，它是信息论的基础，我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时，没有讲如何定量地衡量一个语言模型的好坏，当然，

2008-09-25 21:33:00 552

转载数学之美系列（六）之图论和网络爬虫 (Web Crawlers)

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)2006年5月15日上午 07:15:00uT("time114733040963327560");发表者: 吴军，Google 研究员 [离散数学是当代数学的一个重要分支，也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算，我们已经介绍过了。这里我们介绍图论和互

2008-09-23 22:25:00 537

转载数学之美系列五之简单之美：布尔代数和搜索引擎的索引

数学之美系列五 -- 简单之美：布尔代数和搜索引擎的索引2006年5月10日上午 09:10:00uT("time114722733511630150");发表者: 吴军，Google 研究员 [建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名)

2008-09-23 21:14:00 482

转载数学之美系列（4）之怎样度量信息

数学之美系列 4 -- 怎样度量信息?2006年4月26日上午 08:11:00uT("time114601014752665451");发表者：吴军，Google 研究员前言: Google 一直以 “整合全球信息，让人人能获取，使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢？信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少

2008-09-23 21:06:00 449

转载数学之美（系列三）之隐含马尔可夫模型在语言处理中的应用

数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日上午 08:01:00uT("time114523190259377514");发表者：吴军，Google 研究员前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷

2008-09-23 21:03:00 536

转载数学之美（系列二）之谈谈中文分词

数学之美系列二 -- 谈谈中文分词2006年4月10日上午 08:10:00uT("time114462952509335533");发表者: 吴军， Google 研究员谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子 “中国航天官员应邀到

2008-09-23 13:38:00 549

转载数学之美（系列一）之统计语言模型

数学之美系列一 -- 统计语言模型2006年4月3日上午 08:15:00uT("time114399197227125143");从本周开始，我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章，介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员前言也许大家不相信，数学是解决信息检索和自然语言处理的最好工具

2008-09-23 13:34:00 515

pengpengfly的专栏