自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (2)
  • 收藏
  • 关注

转载 数学之美(系列二十二) 之 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

数学之美系列二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理2007年9月13日 下午 09:00:00uT("time5847627679475780351");发表者:Google(谷歌)研究员 吴军 前一阵子看了电视剧《暗算》,蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚。不过有一点是对的,就是当今的密码学是以数学为

2008-09-27 09:51:00 702

转载 要将多态基类的析构函数声明为虚函数(Effective C++ )

要将多态基类的析构函数声明为虚函数 现在考虑一个计时器的问题,我们首先创建一个名为 TimeKeeper 的基类,然后在它的基础上创建各种派生类,从而用不同手段来计时。由于计时有很多方式,所以这样做是值得的: class TimeKeeper { public:   TimeKeeper();   ~TimeKeeper();   ... };   class

2009-06-24 14:52:00 773

原创 一个异步Socket通信的例子(Windows)

在Windows下面,使一个socket改成异步有两种方法。 (1)调用WSAAsyncSelect方法(2)调用WSAEventSelect方法  对Socket进行轮寻可以使用Select函数,或者自己通过WSAWaitForMultipleEvents进行轮训,但WSAWaitForMultipleEvents有一个限制令人很苦恼,即WSAWaitForMultipl

2009-06-22 17:27:00 1807

转载 B,B-,B+ 和B*树

B树       即二叉搜索树:       1.所有非叶子结点至多拥有两个儿子(Left和Right);       2.所有结点存储一个关键字;       3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树;       如:                B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中;否则,

2009-06-12 10:57:00 563

转载 robots.txt

什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。  

2009-01-22 15:43:00 487

原创 Unicode相关的编码问题

以下转载于Internet 一、Unicode由来Unicode(Universal Multiple-Octet Coded Character Set):目前最流行和最有前途的字符编码规范,因为它解决了不同语言编码的冲突。最初的字符编码ascii(8bit,最高位为0)只能表示128个字符,表示英文、数字和一些符号是没问题。但是世界不止一种语言,即使用上了最高为1的扩展asci

2008-12-23 14:10:00 607

原创 Ubuntu下安装gcc/g++

只需要保证你的电脑连接在Internet上,然后输入sudo apt-get install build-essential即可。安装的速度取决于你的Network。虽然包不大,我一共用了半个多小时才完成安装下载:(

2008-10-11 14:35:00 627

原创 Ubuntu下安装中文输入法

$sudo apt-get install scim scim-modules-socket scim-modules-table scim-pinyin scim-tables-zh scim-gtk2-immodule scim-qtimm$sudo im-switch -s scim$sudo apt-get install fcitx$sudo im-switch -s fcitx然后

2008-10-11 14:31:00 422

转载 从Larbin看互联网爬虫设计(转载)

 来源: http://blog.chinaunix.net/u1/34978/showart_422243.html从Larbin看互联网爬虫设计于敦德2005.12.16转载请注明出处互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广

2008-10-06 13:56:00 821

转载 Hadoop 简介

原文链接:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html 曹 羽中 (caoyuz@cn.ibm.com), 软件工程师, IBM中国开发中心2008 年 5 月 22 日Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序

2008-09-29 14:29:00 1134

原创 Nutch使用方法简介

                                  Nutch使用方法简介 目前Nutch采用Sehll的启动方式,如果您使用的是Windows系统,那么首先需要安装Cygwin。本文就以在Windows中为例,介绍Nutch的安装和使用方法。 (1)准备需要的软件列表    Cygwin     (下载地址:http://www.cygwin.com/se

2008-09-29 10:19:00 6109 4

转载 LINUX的内核升级

LINUX内核升级   Linux的一个重要的特点就是其源代码的公开性,全世界任何一个软件工程师都可以将自己认为优秀的代码加入到其中,由此引发的一个明显的好处就是Linux修补漏洞的快速以及对最新软件技术的利用。而Linux的内核则是这些特点的最直接的代表。  为什么要升级内核  正如它的名字的字面意义,Linux的内核承担着Linux操作系统的最为核心的任务,是其它程序和硬件等运行过程中

2008-09-27 16:32:00 533

转载 数学之美系列(二十三) 之 输入一个汉字需要敲多少个键 — 谈谈香农第一定律

数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律2007年12月3日 上午 10:05:00uT("time2075691283498775489");发表者:Google(谷歌)研究员 吴军 今天各种汉字输入法已经很成熟了,随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法,从理论上分析一下,输入汉字到底能有多快。我们假

2008-09-27 09:52:00 662

转载 数学之美(系列二十一) 之 布隆过滤器(Bloom Filter)

数学之美系列二十一 - 布隆过滤器(Bloom Filter)2007年7月3日 上午 09:35:00uT("time4444440318463911176");发表者:Google(谷歌)研究员 吴军 在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在

2008-09-27 09:51:00 858

转载 数学之美(系列二十) 之 自然语言处理的教父 马库斯

数学之美 系列二十 -自然语言处理的教父 马库斯2007年4月13日 下午 07:03:00uT("time117646227894766702");发表者:Google 研究员,吴军 我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就

2008-09-27 09:49:00 536

转载 数学之美(系列十九) 之 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

数学之美 系列十九 - 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)2007年1月28日 下午 09:53:00uT("time116999293254246877");发表者:Google 研究员,吴军 我们在前面的系列中多次提到马尔可夫链 (MarkovChain),它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题

2008-09-27 09:48:00 544

转载 数学之美(系列十八) 之 矩阵运算和文本处理中的分类问题

数学之美 系列十八 - 矩阵运算和文本处理中的分类问题2007年1月1日 下午 03:10:00uT("time116763611149553424");发表者:Google 研究员,吴军 我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法,还是

2008-09-27 09:47:00 659

转载 数学之美(系列十七) 之 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

数学之美 系列十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)2006年11月28日 上午 03:18:00uT("time116465599638733502");Google 研究员 吴军自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,

2008-09-27 09:46:00 549

转载 数学之美(系列十六 (下)) 之 不要把所有的鸡蛋放在一个篮子里 最大熵模型

数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型2006年11月16日 上午 06:50:00uT("time116362474398958433");发表者:Google 研究员,吴军 我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答,就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式,现在只需要确定指数函

2008-09-27 09:45:00 541

转载 数学之美(系列十六(上)) 之 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型2006年10月8日 上午 07:27:00uT("time115890519154290698");发表者:Google 研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum

2008-09-27 09:42:00 502

转载 数学之美(十四) 之 谈谈数学模型的重要性

数学之美 十四 谈谈数学模型的重要性2006年8月9日 上午 09:12:00uT("time115495678350668502");发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的

2008-09-25 21:43:00 547

转载 数学之美(系列十五) 之 繁与简 自然语言处理的几位精英

数学之美 系列十五 繁与简 自然语言处理的几位精英2006年8月23日 下午 11:22:00uT("time115634657041368311");发表者:吴军,Google 研究员 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价

2008-09-25 21:43:00 740 1

转载 数学之美(系列 12) 之 余弦定理和新闻的分类

数学之美 系列 12 - 余弦定理和新闻的分类2006年7月20日 上午 10:12:00uT("time115337391327964752");发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到

2008-09-25 21:41:00 474

转载 数学之美(系列十三) 之 信息指纹及其应用

数学之美 系列十三 信息指纹及其应用2006年8月3日 上午 11:17:00uT("time115457675609630123");发表者:吴军,Google 研究员 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中

2008-09-25 21:41:00 454

转载 数学之美(系列十一) 之 Google 阿卡 47 的制造者阿米特.辛格博士

数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士2006年7月10日 上午 09:52:00uT("time115244161804028598");发表者:Google 研究员,吴军 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord ofWar)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿

2008-09-25 21:38:00 505

转载 数学之美(系列十) 之 有限状态机和地址识别

数学之美 系列十 有限状态机和地址识别2006年7月5日 上午 09:09:00uT("time115206306165358127");发表者:吴军,Google 研究员 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图

2008-09-25 21:36:00 611

转载 数学之美(系列九) 之 如何确定网页和查询的相关性

数学之美 系列九 -- 如何确定网页和查询的相关性2006年6月27日 上午 09:53:00uT("time115137628966847870");发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以

2008-09-25 21:35:00 451

转载 数学之美(系列八)之 贾里尼克的故事和现代语言处理

数学之美 系列八-- 贾里尼克的故事和现代语言处理2006年6月8日 上午 09:15:00uT("time114968814161581622");发表者:Google 研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他

2008-09-25 21:34:00 991

转载 数学之美(系列七) 之 信息论在信息处理中的应用

数学之美 系列七 -- 信息论在信息处理中的应用2006年5月25日 上午 07:56:00uT("time114822338683782989");发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,

2008-09-25 21:33:00 567

转载 数学之美系列(六) 之 图论和网络爬虫 (Web Crawlers)

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)2006年5月15日 上午 07:15:00uT("time114733040963327560");发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互

2008-09-23 22:25:00 547

转载 数学之美系列五 之 简单之美:布尔代数和搜索引擎的索引

数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引2006年5月10日 上午 09:10:00uT("time114722733511630150");发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名)

2008-09-23 21:14:00 496

转载 数学之美系列(4) 之 怎样度量信息

数学之美系列 4 -- 怎样度量信息?2006年4月26日 上午 08:11:00uT("time114601014752665451");发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少

2008-09-23 21:06:00 466

转载 数学之美(系列三) 之 隐含马尔可夫模型在语言处理中的应用

数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日 上午 08:01:00uT("time114523190259377514");发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷

2008-09-23 21:03:00 549

转载 数学之美(系列二) 之 谈谈中文分词

数学之美 系列二 -- 谈谈中文分词2006年4月10日 上午 08:10:00uT("time114462952509335533");发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到

2008-09-23 13:38:00 562

转载 数学之美(系列一) 之 统计语言模型

数学之美 系列一 -- 统计语言模型2006年4月3日 上午 08:15:00uT("time114399197227125143");从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具

2008-09-23 13:34:00 527

Nutch入门教程.pdf

Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

2008-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除