自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我就一猪头

挨踢民工,兴趣很广,心得全无

  • 博客(27)
  • 收藏
  • 关注

转载 成为编程高手的二十二条军规(转)

                            成为编程高手的二十二条军规(转)            1.生活丰富多彩,会令你一生都难忘,但难忘有很多种,你可以学了很多东西而难忘,也会因为什么都没学到而难忘!  2.计算机专业是一个很枯燥的专业,但即来之、则安之,只要你努力学,也会发现其中的乐趣的。  3.记住:万丈高楼平地起!基础很重要,尤其是专业基础课,只有打好基础才能学得更

2007-06-23 16:03:00 2865 3

转载 一篇关于计算机专业考研的很有深度的文章(转)

               一篇关于计算机专业考研的很有深度的文章(转)  我看了好几遍,一个字"佩服"就我自己的理解,谈谈我对读研和软件学院的看法,不妥之处一笑了之即可。    如果你有实际开发工作经验,感觉自己的水平和实力进入了一个高原期,迫切需要从理论上提高,那么计算机学院是唯一选择。因为计算机学院才能让你在理论上更上一层楼。软件学院从教学计划上就没有把你往这方面带。当然能不能更上一层楼最

2007-06-23 15:51:00 2430 1

转载 胡侃学习(理论)计算机(转)

胡侃学习(理论)计算机(转) 对学习理论计算机参考价值极大的文章,也是对我影响特大的文章之一。希望与大家分享 ****************************************************************** 版权声明:本文作者sir系旅美学人、南京大学校友。为了学术或教育的(非营利)目的,在保留本版权声明的情况下,您可以自由转载本文的电子版。如果

2007-06-23 15:36:00 3849

原创 Steve Jobs Grad Speech at Stanford

                       Steve Jobs  Grad Speech at Stanford---2005        I am honored to be with you today at your commencement from one of the finest universities in the world. I never graduate

2007-06-21 21:44:00 1607

转载 知道大脑的思考模式吗? 问题对我们思想和行为影响

                知道大脑的思考模式吗? 我们每天会问自己两千多个问题。早上起来,第一个问题问自己:现在几点?然后会去看表第二个问题问自己:今天要吃早饭吗?然后起床第三个问题问自己:今天老师的课程是什么?然后准备教科书。我们从睁开眼睛,到进入梦想,几乎我们全部的行为被自己的问题主宰。 同样,我们问好的问题,就会得到好的答案,不好的问题,就会有不好的答案和行为。可以想想

2007-06-19 23:59:00 1051

转载 大学计算机软件专业生应该学什么

                                                                                                       大学计算机软件专业生应该学什么                                       * 基础理论  * 算法  * C语言  * C++或java,如果精通C

2007-06-17 18:22:00 3053 1

转载 告别程序员生涯,一点感慨,与诸君共勉

       再过几天,我就正式告别程序员生涯了,这也是我最后一次以职业程序员身份在CSDN发表文章。小弟谈谈入行几年来的感受,做一个人生阶段的自我总结,同时希望能给后来者带来点参考意见,能在这段路上走的更好。    本人2002年下办年正式入行,至今2007年4月一直从事软件开发工作。上大学选择这个专业是阴差阳错,但接触之后对计算机产生了强烈的兴趣,对写软件有一种强烈的冲动。软件成型后,

2007-06-17 18:16:00 1842

转载 数学之美 十四 谈谈数学模型的重要性(转载)

数学之美 十四 谈谈数学模型的重要性(转载) 发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。]在包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者托勒密。虽然天文学起源于

2007-06-17 18:15:00 703

转载 数学之美 系列十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(转载)

数学之美 系列十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(转载) Google 研究员 吴军自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站

2007-06-17 18:14:00 654

转载 数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型(转载)

数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型(转载) 发表者:Google 研究员,吴军 我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答,就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式,现在只需要确定指数函数的参数就可以了,这个过程称为模型的训练。最原始的最大熵模型的训练方法是一种称为通用迭代算法 GIS(gene

2007-06-17 18:13:00 725

转载 数学之美 系列十五 繁与简 自然语言处理的几位精英(转载)

数学之美 系列十五 繁与简 自然语言处理的几位精英(转载) 发表者:吴军,Google 研究员 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael C

2007-06-17 18:12:00 661

转载 数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型(转载)

数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型(转载) 发表者:Google 研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚要用两个系列的篇幅。]前段时间

2007-06-17 18:12:00 907

转载 数学之美 系列十三 信息指纹及其应用(转载)

数学之美 系列十三 信息指纹及其应用(转载) 发表者:吴军,Google 研究员 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已经访问

2007-06-17 18:11:00 564

转载 数学之美 系列十二 - 余弦定理和新闻的分类(转载)

数学之美 系列十二 - 余弦定理和新闻的分类(转载) 发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一

2007-06-17 18:10:00 674

转载 数学之美 系列十 有限状态机和地址识别(转载)

数学之美 系列十 有限状态机和地址识别(转载) 发表者:吴军,Google 研究员 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。 每一个有限状态机都有一个启始状态和一个终止状态和若干

2007-06-17 18:09:00 558

转载 数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士(转载)

数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士(转载) 发表者:Google 研究员,吴军 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord ofWar)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可

2007-06-17 18:09:00 1034

转载 数学之美 系列九 -- 如何确定网页和查询的相关性(转载)

 数学之美 系列九 -- 如何确定网页和查询的相关性(转载) 发表者:吴军,Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原

2007-06-17 18:08:00 739

转载 数学之美 系列七 -- 信息论在信息处理中的应用(转载)

数学之美 系列七 -- 信息论在信息处理中的应用(转载) 发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试

2007-06-17 18:06:00 628

转载 数学之美 系列八-- 贾里尼克的故事和现代语言处理(转载)

数学之美 系列八-- 贾里尼克的故事和现代语言处理(转载) 发表者:Google 研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。弗莱德里克

2007-06-17 18:06:00 1011

转载 数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引(转载)

数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引(转载) 发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。]

2007-06-17 18:05:00 596

转载 数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)(转载)

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)(转载) 发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trend

2007-06-17 18:05:00 686

转载 数学之美系列四 -- 怎样度量信息?(转载)

数学之美系列四 -- 怎样度量信息?(转载) 发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才

2007-06-17 18:04:00 655

转载 数学之美 系列二 -- 谈谈中文分词(转载)

数学之美 系列二 -- 谈谈中文分词(转载) 发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 /

2007-06-17 18:02:00 800

转载 数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用(转载) 发表者:吴军,Google 研究员

 数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用(转载) 发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题

2007-06-17 18:00:00 1717 3

转载 数学之美系列 发表者: 吴军, Google 研究员

                                           数学之美 系列一 -- 统计语言模型(转载) 从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地

2007-06-17 17:56:00 2315

转载 人和信息之间不得不说的四种关系

                                           人和信息之间不得不说的四种关系             寻找本身就是搜索引擎公司的关注点......         有一年,我在中国台北的诚品书店发现一本书,叫《故事的力量》,表面上,这本书的重点似乎在讲故事。但实际上,这是一本关于经济学和管理学的书。书中说,很多公司的商业模式和

2007-06-17 17:53:00 1763 1

转载 大学四年应是这样度过 李开复

       大学四年应是这样度过 李开复2005年2月 --------------

2007-06-15 23:05:00 2530

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除