自然语言
pengpengfly
批评最易;辩护较难;找出解决方案最难
展开
-
数学之美(系列三) 之 隐含马尔可夫模型在语言处理中的应用
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日 上午 08:01:00uT("time114523190259377514");发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷转载 2008-09-23 21:03:00 · 551 阅读 · 0 评论 -
数学之美(系列二十) 之 自然语言处理的教父 马库斯
数学之美 系列二十 -自然语言处理的教父 马库斯2007年4月13日 下午 07:03:00uT("time117646227894766702");发表者:Google 研究员,吴军 我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就转载 2008-09-27 09:49:00 · 541 阅读 · 0 评论 -
数学之美(系列七) 之 信息论在信息处理中的应用
数学之美 系列七 -- 信息论在信息处理中的应用2006年5月25日 上午 07:56:00uT("time114822338683782989");发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,转载 2008-09-25 21:33:00 · 570 阅读 · 0 评论 -
数学之美(系列十九) 之 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)
数学之美 系列十九 - 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)2007年1月28日 下午 09:53:00uT("time116999293254246877");发表者:Google 研究员,吴军 我们在前面的系列中多次提到马尔可夫链 (MarkovChain),它描述了一种状态序列,其每个状态值取决于前面有限个状态。这种模型,对很多实际问题转载 2008-09-27 09:48:00 · 552 阅读 · 0 评论 -
数学之美(系列十六 (下)) 之 不要把所有的鸡蛋放在一个篮子里 最大熵模型
数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型2006年11月16日 上午 06:50:00uT("time116362474398958433");发表者:Google 研究员,吴军 我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答,就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式,现在只需要确定指数函转载 2008-09-27 09:45:00 · 544 阅读 · 0 评论 -
数学之美(系列十五) 之 繁与简 自然语言处理的几位精英
数学之美 系列十五 繁与简 自然语言处理的几位精英2006年8月23日 下午 11:22:00uT("time115634657041368311");发表者:吴军,Google 研究员 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价转载 2008-09-25 21:43:00 · 743 阅读 · 1 评论 -
数学之美系列(二十三) 之 输入一个汉字需要敲多少个键 — 谈谈香农第一定律
数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律2007年12月3日 上午 10:05:00uT("time2075691283498775489");发表者:Google(谷歌)研究员 吴军 今天各种汉字输入法已经很成熟了,随便挑出一种主要的输入法比十几年前最好的输入法都要快、要准。现在抛开具体的输入法,从理论上分析一下,输入汉字到底能有多快。我们假转载 2008-09-27 09:52:00 · 669 阅读 · 0 评论 -
数学之美(系列二十二) 之 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
数学之美系列二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理2007年9月13日 下午 09:00:00uT("time5847627679475780351");发表者:Google(谷歌)研究员 吴军 前一阵子看了电视剧《暗算》,蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚。不过有一点是对的,就是当今的密码学是以数学为转载 2008-09-27 09:51:00 · 706 阅读 · 0 评论 -
数学之美(系列十六(上)) 之 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型
数学之美 系列十六(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型2006年10月8日 上午 07:27:00uT("time115890519154290698");发表者:Google 研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum转载 2008-09-27 09:42:00 · 505 阅读 · 0 评论 -
数学之美(十四) 之 谈谈数学模型的重要性
数学之美 十四 谈谈数学模型的重要性2006年8月9日 上午 09:12:00uT("time115495678350668502");发表者:吴军,Google 研究员 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的转载 2008-09-25 21:43:00 · 549 阅读 · 0 评论 -
数学之美(系列八)之 贾里尼克的故事和现代语言处理
数学之美 系列八-- 贾里尼克的故事和现代语言处理2006年6月8日 上午 09:15:00uT("time114968814161581622");发表者:Google 研究员,吴军 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他转载 2008-09-25 21:34:00 · 993 阅读 · 0 评论 -
数学之美(系列二) 之 谈谈中文分词
数学之美 系列二 -- 谈谈中文分词2006年4月10日 上午 08:10:00uT("time114462952509335533");发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到转载 2008-09-23 13:38:00 · 563 阅读 · 0 评论 -
数学之美(系列一) 之 统计语言模型
数学之美 系列一 -- 统计语言模型2006年4月3日 上午 08:15:00uT("time114399197227125143");从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具转载 2008-09-23 13:34:00 · 528 阅读 · 0 评论 -
数学之美系列(4) 之 怎样度量信息
数学之美系列 4 -- 怎样度量信息?2006年4月26日 上午 08:11:00uT("time114601014752665451");发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少转载 2008-09-23 21:06:00 · 469 阅读 · 0 评论 -
Unicode相关的编码问题
以下转载于Internet 一、Unicode由来Unicode(Universal Multiple-Octet Coded Character Set):目前最流行和最有前途的字符编码规范,因为它解决了不同语言编码的冲突。最初的字符编码ascii(8bit,最高位为0)只能表示128个字符,表示英文、数字和一些符号是没问题。但是世界不止一种语言,即使用上了最高为1的扩展asci原创 2008-12-23 14:10:00 · 615 阅读 · 0 评论