![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP研究
文章平均质量分 63
jiangredsheep
这个作者很懒,什么都没留下…
展开
-
perl中汉语匹配的问题
如何用句号分割中文句子发信站: BBS 水木清华站 (Mon Mar 7 19:40:39 2005), 转信 example: 还有一件事。5点半你去会见斯图尔特先生。 提取出 subsentence1: 还有一件事。 subsentence2:5点半你去会见斯图尔特先生。 句中可能有多个句号那么就切分为多个。 我的想法是: 1.去掉末尾标点 $t_c_str =~s/[))/;,.?!/"原创 2005-03-07 22:17:00 · 1536 阅读 · 0 评论 -
数学之美 系列八-- 贾里尼克的故事和现代语言处理
数学之美 系列八-- 贾里尼克的故事和现代语言处理 2006年6月8日 上午 09:15:00 发表者:Google 研究员,吴军 from: http://www.googlechinablog.com/ 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语 音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介 绍贾里尼克本人。在这里我不想列举转载 2006-10-12 13:07:00 · 1651 阅读 · 0 评论 -
数学之美 系列十七(上) 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型
2006年10月8日 上午 07:27:00uT("time115890519154290698");发表者:Google 研究员,吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。这是一个非常有意思的题目,但是把它讲清楚转载 2006-10-12 13:08:00 · 1059 阅读 · 0 评论 -
数学之美 系列一 -- 统计语言模型
2006年4月3日 上午 08:15:00uT("time114399197227125143");从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并转载 2006-10-12 13:13:00 · 841 阅读 · 0 评论 -
数学之美 系列二 -- 谈谈中文分词
2006年4月10日 上午 08:10:00uT("time114462952509335533");发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分转载 2006-10-12 13:19:00 · 992 阅读 · 0 评论 -
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用2006年4月17日 上午 08:01:00uT("time114523190259377514");发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由转载 2006-10-12 13:20:00 · 772 阅读 · 0 评论 -
数学之美系列 4 -- 怎样度量信息?
2006年4月26日 上午 08:11:00uT("time114601014752665451");发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有转载 2006-10-12 13:21:00 · 1049 阅读 · 1 评论 -
数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引
2006年5月10日 上午 09:10:00uT("time114722733511630150");发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,转载 2006-10-12 13:21:00 · 694 阅读 · 0 评论 -
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
2006年5月15日 上午 07:15:00 作者: google 吴军[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends 来搜索一下“离散数学”这个词,可以发现不转载 2006-10-12 13:22:00 · 736 阅读 · 0 评论 -
数学之美 系列七 -- 信息论在信息处理中的应用
2006年5月25日 上午 07:56:00uT("time114822338683782989");发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音转载 2006-10-12 13:22:00 · 807 阅读 · 0 评论 -
数学之美 系列九 -- 如何确定网页和查询的相关性
2006年6月27日 上午 09:53:00[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网转载 2006-10-12 13:23:00 · 712 阅读 · 0 评论 -
数学之美 系列十 有限状态机和地址识别
2006年7月5日 上午 09:09:00 发表者:吴军,Google 研究员 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧转载 2006-10-12 13:33:00 · 824 阅读 · 0 评论 -
数学之美 系列 12 - 余弦定理和新闻的分类
2006年7月20日 上午 10:12:00 发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办转载 2006-10-12 13:35:00 · 931 阅读 · 0 评论 -
数学之美 系列十三 信息指纹及其应用
2006年8月3日 上午 11:17:00 发表者:吴军,Google 研究员 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需要在哈希表中纪录已经访问过的网址(转载 2006-10-12 13:35:00 · 771 阅读 · 0 评论 -
数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士
2006年7月10日 上午 09:52:00 发表者:Google 研究员,吴军 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord ofWar)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。我认为,在计转载 2006-10-12 13:36:00 · 1001 阅读 · 0 评论 -
数学之美 系列十五 繁与简 自然语言处理的几位精英
2006年8月23日 下午 11:22:00 发表者:吴军,Google 研究员 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michael Collins) 就转载 2006-10-12 13:40:00 · 947 阅读 · 0 评论 -
perl按照字符串长度进行排序,sort函数的示例
## rank by lenprint join("\n",sort sort_by_len keys %chn_hash);sub sort_by_len{if(length($a) length($b)) {1} else {0}}原创 2012-09-05 10:02:55 · 2107 阅读 · 0 评论 -
测试一个奇怪的问题
我是一个中国人的老师。原创 2014-05-07 16:29:01 · 890 阅读 · 0 评论 -
自然语言处理及计算语言学相关术语中英对译表(A~L)
abbreviation 缩写 [省略语] ablative 夺格(的) abrupt 突发音 accent 口音/{Phonetics}重音 accusative 受格(的) acoustic phonetics 声学语音学 acquisition 习得 action verb 动作动词 active 主动语态 active chart parser 活动图句法剖析程序 active knowl转载 2006-03-02 13:54:00 · 5646 阅读 · 2 评论 -
基于统计学习理论的支持向量机算法研究
转自网友blog:http://www.blog.edu.cn/user2/25835/archives/2005/210242.shtml基于统计学习理论的支持向量机算法研究 1 理论背景基于数据的机器学习是现代智能技术中的重要方面,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。迄今为止,关于机器学习还没有一种被共同接受的理论框架,关于其实现方法大致可以分为原创 2005-06-18 21:19:00 · 4149 阅读 · 0 评论 -
汉字字节问题
不同的编码标准,字节数不同GB2312:2字节GBK: 2字节GB18030: 2字节或4字节utf-8:一般是3字节utf-16: ?????utf-32: ?????5 Unicode 编码 2个字节原创 2005-03-12 17:36:00 · 1173 阅读 · 0 评论 -
dos命令& 批处理命令小结(不断更新中)
1.拷贝当前目录下所有txt文件到一个文件copy *.txt tgt.txt 如果是合并某几个文件到某一文件且有次序copy file1.txt+file2.txt+file3.txt combine_file.txt2.对.exe文件在命令行方式下或者是批处理中给参数时,code中应该从agrv[1]开始,因为.exe的名字是argv[0]. 如file_process.c////////原创 2005-07-10 15:53:00 · 1401 阅读 · 0 评论 -
How do I select a random line from a file?
Heres an algorithm from the Camel Book: srand; rand($.) ;This has a significant advantage in space over reading the whole file in原创 2005-03-18 09:08:00 · 857 阅读 · 0 评论 -
张民博士讲座感想&简历信息抽取paper(ACL2005)小结
7月13日早上9:00在新技术楼听取了张民博士的关于核方法的讲座张民简短介绍:张民博士是我们实验室李老师的第三个博士(after mzhou,tjzhao).毕业之后先去了韩国一个有名的NLP公司任职,后转到新加坡国立研究院至今。他们的部门简写挺好玩;A*——A-START :agency of .....(忘了)关于他的学术成就我们可以在google做如下搜索DBLP Min zhang获得一下原创 2005-07-14 08:53:00 · 2890 阅读 · 1 评论 -
Const用法小结
一 const基础如果const关键字不涉及到指针,我们很好理解,下面是涉及到指针的情况: int b = 500;const int* a = &b; [1]int const *a = &b; [2]int* const a = &b; [3]const int* const a = &b; [4]如果你能区分出上述四种情况,那么,恭喜你,你已经迈出了可喜的一步。不知道,也没关系原创 2005-04-06 22:35:00 · 928 阅读 · 0 评论 -
Reflections of a Human Translator on Machine Translation
Reflections of a Human Translator on Machine TranslationorWill MT Become the "Deus Ex Machina" Rendering Humans Obsolete in an Age When "Deus Est Machina?" by Steve Vlasta Vitek Theres a tremendous原创 2005-03-27 21:07:00 · 2092 阅读 · 0 评论 -
机器翻译还是大有前途的——访问比较好的自动翻译网站有感
今天访问了一个有自动翻译演示的网站,地址为:http://www.worldlingo.com/wl/mstranslate/UP26384/T1/P2/l/zh/microsoft/computer_translation.html是一家美国公司worldlingo ,暂时还没查到那个研究机构为其提供技术支持。我试了一下他的汉英翻译,发现效果出奇的好:以下是测试内容:译文:What day is翻译 2005-08-17 20:44:00 · 2946 阅读 · 2 评论 -
国外刊登NLP的期刊[zz]
国外刊登NLP的期刊1. Artificial Intelligence ( SCI 源刊 EI源刊) http://www.elsevier.com http://www.elsevier.com/wps/find/journaldescription.cws_home/505601/description#description ISSN: 0004-3702ARTIFICIAL INTELL原创 2005-08-24 10:07:00 · 2687 阅读 · 1 评论 -
Perl String Functions
Perl String FunctionschompRemoves line ending characters from a string or array of strings. chopRemoves the last character from a string or array of strings. chop STRING evalEvaluates perl code, then原创 2005-04-14 16:50:00 · 2038 阅读 · 2 评论 -
MT summit X 感想之感想
MT Summit XSeptember 12-16, 2005 Phuket, Thailand The tenth Machine Translation Summit, organized by the Asia-Pacific Association for Machine Translation (AAMT), will be held at Phuket Island, Thailan原创 2005-09-24 16:52:00 · 1683 阅读 · 0 评论 -
Some feelings about HIT_MS summer school on IE
时间过得真快呀,短短三天的微软暑期信息抽取研讨班已经结束了。总体的感觉:1。对四位老师的感觉牛成(原Cymfony公司研究员),现为微软亚洲研究院自然语言组研究员。感觉这位老师偏向作应用,毕竟他是公司出来的。这次的主讲也是他,三天中两天的内容全是他讲的,可见他是最劳累的。他主讲的内容是“Information ExtractionBasic Concepts, Key Technologies,原创 2005-06-04 10:19:00 · 1957 阅读 · 4 评论 -
key to perl puzzles(from smth)
1. What does this do? $foo = $foo[1] 将数组 @foo 的第2个元素赋给标量 $foo 2. What does this print? @a = (); $h{a} = b; push @a, %h; print "@a"; push 的参数除了第 1原创 2005-06-07 14:11:00 · 1190 阅读 · 0 评论 -
perl embeded into c++
发信人: wideexpress (冬瓜), 信区: Perl标 题: 菜鸟历程——将perl嵌入到vc++发信站: 水木社区 (Sat May 28 23:36:25 2005), 站内因为要在vc环境下进行文本解析,所以想将perl嵌入到vc环境中来,在网上看到ActivePerl支持Windows环境,于是下了ActivePerl5.8.6,安装之后将环境变量和库文件设好,就可以在dos下原创 2005-05-29 10:22:00 · 1780 阅读 · 0 评论 -
Perl Puzzles Key(standard)
Perl Puzzles KeyThis is the key for the Perl puzzles. Corrections welcome. Answerscredit for noting that the two foos are unrelated. a b c and 3 $a is set to the eight character string consisting of原创 2005-06-07 15:22:00 · 1023 阅读 · 0 评论 -
[转载]若干个挺有意思的教训
发信人: toyoto (follow my nose), 信区: Paper 标 题: [转载]若干个挺有意思的教训 发信站: BBS 哈工大紫丁香站 (Sat May 21 16:00:46 2005) 近百号人辛苦工作近三年,某项研究现在终于有了一个初步的结果。虽然此前因为各种原 因被某Top journal毙了,但修改后还是有个不算差的期刊接受(还要做小的修改,所以抱 歉我还不能对论文内原创 2005-05-29 19:17:00 · 1068 阅读 · 0 评论 -
perl embeded into c++ 完全攻略
perl embeded into c++document.title="perl embeded into c++ - "+document.title 完全攻略 step 1:要想在Microsoft Developer Studio中使用perl首先要运行:perl -MextUtils::Embed -e xsinit生成perlxsi.c(perlxsi.cpp)文件.Step2原创 2005-06-07 15:43:00 · 1656 阅读 · 1 评论 -
perl文件读取之心得
在perl中用到的读文件一般有两种方法:1.先把整个文件download到一个数组里面然后对数组进行遍历操作。如:open (IN,"alignresult.txt") ||(die "can not open the file input.txt/n$!");my @all = ;foreach $line(@all){process $line;}或者foreach $line(){...}语原创 2005-06-08 11:35:00 · 6731 阅读 · 0 评论 -
ROC和AUC介绍以及如何计算AUC
孔明 2013-06-23 12:31:24原帖发表在我的博客:http://alexkong.net/2013/06/introduction-to-auc-and-roc/ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里](http转载 2015-04-20 13:54:07 · 863 阅读 · 0 评论