自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (38)
  • 收藏
  • 关注

转载 【数学之美系列二十一】布隆过滤器(Bloom Filter)

2007年7月3日 上午 09:35:00 发表者:Google(谷歌)研究员 吴军 在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断 它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的 元素存在计算机

2007-10-05 04:22:00 1061 1

转载 【数学之美 系列二十】自然语言处理的教父 马库斯

2007年4月13日 下午 07:03:00 发表者:Google 研究员,吴军 我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米 奇 ·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得。的确,马库斯虽然作为第一作者发表的 论文并不多,但是从

2007-10-05 04:21:00 1167 1

转载 【数学之美系列十八 】矩阵运算和文本处理中的分类问题

2007年1月1日 下午 03:10:00 发表者:Google 研究员,吴军 我在大学学习线性代数时,实在想不出它除了告诉我们如何解线性方程外,还能有什么别的用途。关于矩阵的许多概念,比如特征值等等,更是脱离日常生活。后来 在数值分析中又学了很多矩阵的近似算法,还是看不到可以应用的地方。当时选这些课,完全是为了混学分的学位。我想,很多同学都多多少少有过类似的经历。直 到后来长期做自然语言

2007-10-05 04:20:00 1168 1

转载 【数学之美 系列十九】马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

2007年1月28日 下午 09:53:00 发表者:Google 研究员,吴军 我们在前面的系列中多次提到马尔可夫链 (Markov Chain),它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题来讲是一种很粗略的简化。在现实生活中,很多事物相互 的关系并不能用一条链来串起来。它们之间的关系可能是交叉的、错综复杂的。比如在下图中可以看到,心血管疾病和它的

2007-10-05 04:20:00 1656 1

转载 【数学之美 系列十六】 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

2006年10月8日 上午 07:27:00 发表者:Google 研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理 (the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要用两个系列的篇幅。] 前段时间,Google 中国研究院的刘骏

2007-10-05 04:19:00 1025 1

转载 【数学之美 系列十七】 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

2006年11月28日 上午 03:18:00 Google 研究员 吴军 自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。 搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重 复地罗

2007-10-05 04:19:00 1286 1

转载 】数学之美系列十五】 繁与简 自然语言处理的几位精英

2006年8月23日 下午 11:22:00 发表者:吴军,Google 研究员 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以 说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯  (Michael Coll

2007-10-05 04:17:00 1111 1

转载 【数学之美 系列十三 】信息指纹及其应用

2006年8月3日 上午 11:17:00 发表者:吴军,Google 研究员 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。 我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已

2007-10-05 04:16:00 963

转载 【数学之美系列十四 】谈谈数学模型的重要性

 2006年8月9日 上午 09:12:00 发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。] 在包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者托勒密。虽然天文

2007-10-05 04:16:00 1076

转载 【数学之美 系列十二】 余弦定理和新闻的分类

2006年7月20日 上午 10:12:00 发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。 Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到

2007-10-05 04:14:00 943

原创 Linux下常用软件介绍

我觉得我现在的系统已经很满足我的需求了,很多朋友特别是初学者在刚开始的时候觉得Linux比不上windows是因为没有那么多好用的软件。其实只是他们还没有真正进入Linux这个世界而已。Linux下的软件远比你想像中的多,而且正在以你想像不到的开发速度进行者。为了让初学者更快的融入Linux我列出了我觉得Linux下比较好的一些常用软件,足以应对你平时的需求了。浏览器:iceweasel原名fir

2007-10-05 04:13:00 2809 2

转载 【数学之美 系列十】有限状态机和地址识别

2006年7月5日 上午 09:09:00 发表者:吴军,Google 研究员 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。 一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。 每一个有限状态机都有一个启始状态和一个终止状

2007-10-05 03:39:00 882

转载 【数学之美 系列十一 】Google 阿卡 47 的制造者阿米特.辛格博士

2006年7月10日 上午 09:52:00 发表者:Google 研究员,吴军 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord of War)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。

2007-10-05 03:39:00 912

转载 【数学之美 系列九】如何确定网页和查询的相关性

2006年6月27日 上午 09:53:00 发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了 这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。] 我们还是看上回的例子,查找关于“原子能的

2007-10-05 03:38:00 777

转载 【数学之美 系列八】 贾里尼克的故事和现代语言处理

2006年6月8日 上午 09:15:00 发表者:Google 研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回 的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。 弗莱德里克.贾里

2007-10-05 03:37:00 1259

原创 【数学之美 系列七】信息论在信息处理中的应用

2006年5月25日 上午 07:56:00 发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。 先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少 语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试

2007-10-05 03:36:00 929

转载 【数学之美系列六】 图论和网络爬虫 (Web Crawlers)

2006年5月15日 上午 07:15:00 发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍 过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends 来 搜索一下“离散数

2007-10-05 03:35:00 777

转载 【数学之美系列五】简单之美:布尔代数和搜索引擎的索引

2006年5月10日 上午 09:10:00 发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍  Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网 页自动下载。] 世界上不

2007-10-05 03:34:00 738

原创 将fcitx设置为系统默认启动输入法

只需要修改在/etc/X11/xinit/xinit.d/下面的zh_CN文件就可以,发一下我的配置文件。系统DebianCode highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->## Use "X input Method" for all applica

2007-10-05 03:33:00 3075 1

转载 Linus Torvalds 自传

第一章:一个书呆子的诞生1 大鼻子的孩子2 外公的计算机3 芬兰的严冬4 我的家族5 中学时代6 长大成人7 爱洗桑拿的国家第二章:一种操作系统的诞生1 昨天的电脑2 上大学3 从UNIX开始4 第一台386和终端仿真第三章:编程的美妙1 开始编程2 长腿的终端仿真器3 寻求网上帮助4 Linux5 开放源代码6 Linux有了用户7 Linux能换来金钱吗?8 MINIX对Linux9 最后

2007-10-05 03:24:00 1200

原创 【数学之美系列四】怎样度量信息

2006年4月26日 上午 08:11:00 发表者:吴军,Google 研究员 前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢? 信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 

2007-10-05 03:10:00 836

原创 【数学之美系列三】隐含马尔可夫模型在语言处理中的应用

2006年4月17日 上午 08:01:00 发表者:吴军,Google 研究员 前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。 自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据

2007-10-05 03:09:00 739

原创 【数学之美系列二】谈谈中文分词

2006年4月10日 上午 08:10:00 发表者: 吴军, Google 研究员 谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 /

2007-10-05 03:08:00 693

原创 【数学之美系列一】统计语言模型

2006年4月3日 上午 08:15:00 发表者: 吴军, Google 研究员 前言 也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决 一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发  Google 产

2007-10-05 03:07:00 835

原创 【摘录】百度和Google的编程接口比较

百度和Google做为知名的搜索引擎,有非常丰富的搜索资源信息,很多人都希望编写程序调用搜索引擎的宝贵数据,昨天我写的那个程序是调用百度的搜索接口,为什么使用百度的呢,这中间其实也是有原因的。   我最开始打算调用Google的接口,Google本身也提供了Google SOAP Search API供程序员调用,一天可以进行一千次搜索 调用,由于API是通过Web Service提供的,因

2007-10-05 02:57:00 992

原创 【分享】C++面试题集锦

嵌入式开发.C语言面试题 http://www.ad0.cn/netfetch/ 预处理器(Preprocessor)   1. 用预处理指令#define 声明一个常数,用以表明1年中有多少秒(忽略闰年问题) #define SECONDS_PER_YEAR (60 * 60 * 24 * 365)UL 我在这想看到几件事情: 1). #define 语法的基本知识(例如:不能以分号结

2007-10-05 02:47:00 1178

软件随想录中文高清版:程序员部落酋长Joel谈软件(3分下载)

软件随想录:程序员部落酋长Joel谈软件.pdf 个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除! 《软件随想录:程序员部落酋长Joel谈软件》是一部关于软件技术、人才、创业和企业管理的随想文集,作者以诙谐幽默的笔触将自己在软件行业的亲身感悟娓娓道来,观点新颖独特,内容简洁实用。全书分为 36讲,每一讲都是一个独立的专题。, 《软件随想录:程序员部落酋长Joel谈软件》从不同侧面满足了软件开发人员、设计人员、管理人员及从事软件相关工作的人员的学习与工作需要。

2018-09-20

Apress.Pro.dotNET.4.Parallel.Programming.in.CSharp.May.2010.rar

Apress.Pro.dotNET.4.Parallel.Programming.in.CSharp.May.2010.rar

2010-06-24

symbian s60开发ppt

symbian s60 开发 ppt C++ C AO 二阶构造 5个类 C类 T类 R类 M类 S类 TInt TBufC...描述符 四种创建对像的方式

2009-11-16

Sams Microsoft SharePoint 2007 Development Unleashed.pdf

sharepoint 2007开发详细介绍。英文版

2009-01-16

SEO(搜索引擎优化)知识完全手册

SEO(搜索引擎优化)知识完全手册涵盖了SEO的很多基础知识,适合于对SEO感兴趣的读者。版权归新竞争力公司

2009-01-07

Windows Live Writer 2008 For Windows Server 2003

windows live writer 2008 只能在xp下使用,这个版本可以在2003下使用ff

2008-09-10

Javascript DOM编程艺术

本书讲述了JavaScript和DOM的基础知识,但重点放在DOM编程技术背后的思路和原则:预留退路、循序渐进和以用户为中心等,这些概念对于任何前端Web开发工作都非常重要。本书将这些概念贯穿在书中的所有代码示例中,使你看到用来创建图片库页面的脚本、用来创建动画效果的脚本和用来丰富页面元素呈现效果的脚本,最后结合所讲述的内容创建了一个实际的网站。    本书适合Web设计师和开发人员阅读。

2008-08-28

Microsoft SQL Server 2005 技术内幕:T-SQL程序设计(CHM格式)

本书是Inside Microsoft SQL Server 2005系列四本著作中的一本。它详细介绍了T-SQL的内部构造,包含了非常全面的编程参考。它提供了使用Transact-SQL(T-SQL)的专家级指导,T-SQL是用于SQL Server的最常见的也是功能最强大的编程语言。该书由Itzik Ben-Gan权威执笔,重点关注语言特性以及它们如何被SQL Server引擎解释和处理。<br>通过本书,你将深入了解T-SQL的高级用法,包括触发器、用户自定义函数、异常处理等。该书解释并比较了SQL Server 2000和SQL Server 2005在数据库开发相关问题上的解决方案,深入讨论了SQL Server 2005中新增的T-SQL编程特性,包含了大量的代码示例、表示例和逻辑难题以帮助数据库开发人员和管理员理解复杂的逻辑并掌握T-SQL。<br>  本书适合于专业数据库开发者、BI开发者、DBA和以SQL Server作为后台数据库的一般应用程序开发者,读者可以通过书中的最佳实践、高级技巧和代码示例来掌握这门复杂的编程语言,以切合实际的方案来解决复杂的实际问题。

2008-07-30

PowerDesigner建模培训

教你如何使用sybase公司提供的powerdesigner建模工具进行建模

2007-10-07

10分钟学会SQL

当然不是真的10分钟就可以学会了,不过作者会把东西讲得浅显易懂

2007-10-07

J2EE架构

学习J2EE架构推荐看一下

2007-10-07

javascipt教学

要想进行web开发,不会javascipt还是不行的

2007-10-07

sun培训教材翻译稿

sun公司的培训教材,有点类似白皮书那种性质,可以让你对java有一个比较全面的认识

2007-10-07

软件工程思想

林锐博士写的,感觉挺好的

2007-10-07

55 Ways to Have Fun with Google

55 Ways to Have Fun with Google

2007-10-05

Linus自传-Just for fun

Linus自传-Just for fun

2007-10-05

23种设计模式解析附C++实现源码

23种设计模式解析附C++实现源码,作者以一个学习者的角度讲述了他对这23种设计模式的理解

2007-10-05

妙趣横生的数学难题

妙趣横生的数学难题,看一看,对活动脑筋有好处的

2007-10-05

Google Hacks

一本讲述google技巧的书籍

2007-10-05

如何阅读源码

面对那么多源码,怎么去学习呢

2007-10-05

搜索引擎排名秘笈

想让你的网站排名更靠前吗?

2007-10-05

qt白皮书

qt编程必看,介绍了qt的各个特性

2007-09-25

输入输出流介绍

介绍c++的输入输出流

2007-09-25

Effective C++ 第2版(中文版)

不用介绍了吧,好书一本

2007-09-25

XML学习指南

前 言扩展标记语言(Extensible Markup Language,XML),是目前最有前途的在World Wide Web上保存和传递信息的语言。尽管超文本标记语言(Hypertext Markup Language,HTML)目前是创建Web页的最常用语言,但是它在保存信息方面的能力很有限。与之相反,XML却有着极其灵活的语法,允许真实地描述各种类型的信息,从简单的菜谱到复杂的数据库(所以才会使用术语“扩展”)。XML文档(与样式表或传统的HTML页一起)可以很容易地在浏览器中显示。

2007-09-25

Game Thoery

Game Theory

2007-09-25

水木编程精华

汇集了水木社区编程精华

2007-09-25

C++标准库

C++标准库介绍参考手册,学习C++必备

2007-09-25

ACM国际大学生程序设计竞赛试题与解析

国际大赛试题解析,挺不错的

2007-09-25

Open GL手册

OpenGL是一个图形硬件的软件接口(“GL”即Graphics Library)。这一接口包含了数百个函数,图形程序员可以利用这些函数指定设计高品质的三维彩色图像所需的对象和操作。这些函数中有许多实际上是其他函数的简单变形,因此,实际上它仅包含大约180个左右完全不同的函数。 OpenGL 实用库(OpenGL Utility Library,GLU)和对X窗口系统的OpenGL扩展(OpenGL Extension to the X Window System,GLX)为OpenGL提供了有用的支持特性和完整的OpenGL核心函数集。本书详细介绍了这些函数的功能。

2007-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除