2009年10月_cowboy_wz

12月 11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

转载数学之美系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士

数学之美系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士枪迷或者看过尼古拉斯.凯奇（Nicolas Cage)主演的电影“战争之王”（Lord of War)的人也许还记得影片开头的一段话：（在所有轻武器中，）最有名的是阿卡 47(AK47)冲锋枪(也就是中国的五六式冲锋枪的原型），因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力大并且操作简单。我认为，在

2009-10-31 21:56:00 1005

转载数学之美系列十有限状态机和地址识别

数学之美系列十有限状态机和地址识别地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些状态（节点）和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。每一个有限状态机都有一个启始状态和一个终止状态和若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件

2009-10-31 21:51:00 926

转载数学之美系列九 -- 如何确定网页和查询的相关性

数学之美系列九 -- 如何确定网页和查询的相关性[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面，一个有一定编程基础的读者应该可以写一个简单的搜索引擎了，比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子，查找关于“原子能的应用”的网页。我们第一步是在索引中找到包

2009-10-31 21:43:00 768

转载数学之美系列八-- 贾里尼克的故事和现代语言处理

数学之美系列八-- 贾里尼克的故事和现代语言处理读者也许注意到了，我们在前面的系列中多次提到了贾里尼克这个名字。事实上，现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里，介绍贾里尼克本人。在这里我不想列举他的贡献，而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的，要么是他亲口对我讲的。弗莱德里克.贾里尼克(Fred Jelinek)出生于

2009-10-31 21:31:00 1177

转载数学之美系列七 -- 信息论在信息处理中的应用

数学之美系列七 -- 信息论在信息处理中的应用 http://googlechinablog.com/2006/05/blog-post_25.html 我们已经介绍了信息熵，它是信息论的基础，我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时，没有讲如何定量地衡量一个语言模型的好坏，当然，读者会很自然地想到，既然语

2009-10-31 21:21:00 1192

转载数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers) [离散数学是当代数学的一个重要分支，也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算，我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句，我们用 Google Trends 来搜索一下“离散数学”这个词

2009-10-31 21:08:00 931

转载数学之美系列五 -- 简单之美：布尔代数和搜索引擎的索引

数学之美系列五 -- 简单之美：布尔代数和搜索引擎的索引[建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题，这里我们谈谈索引问题，以后我们还会谈如何度量网页的相关性，和进行网页自动下载。］世界上不可能有比二进制更简单的计数方法了，也不可能

2009-10-31 20:57:00 856

转载数学之美系列 4 -- 怎样度量信息?

数学之美系列 4 -- 怎样度量信息?前言: Google 一直以 “整合全球信息，让人人能获取，使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢？信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年，香农提出了“信息熵”(shāng) 的概念，才解决了对信息的量化度量问题。一条信息的信

2009-10-31 20:48:00 710

转载数学之美系列三 -- 隐含马尔可夫模型在语言处理中的应用

发表者：吴军，Google 研究员前言：隐含马尔可夫模型是一个数学模型，到目前为之，它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决，让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息，去猜测发话人要表达的意思。这其实就象通信中，我

2009-10-31 20:32:00 1003

转载数学之美系列二 -- 谈谈中文分词

　　数学之美系列二 -- 谈谈中文分词　　2006年4月10日上午 08:10:00　　发表者: 吴军， Google 研究员　　谈谈中文分词　　----- 统计语言模型在中文处理中的一个应用　　上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”

2009-10-31 20:19:00 1011

转载 About Text mining

Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <!-- /

2009-10-31 17:04:00 1106

转载如何写好引言

Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <!-- /* Sty

2009-10-31 16:22:00 3680

转载 What Is Text Mining?

Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <object cla

2009-10-31 16:18:00 1552

转载朴素贝叶斯文本分类

俺不是大牛啊，只能写写这种浅显的文章了，算是抛砖引玉吧 naive bayes（朴素贝叶斯，下面简称NB ^_^）是ML中的一个非常基础和简单的算法，常常用它来做分类，我用它做过text classification。现在的研究中大概已经很少有人用它来实验了（除非是做base line），但确实是个很好的入门的算法，来

2009-10-30 18:11:00 5552 4

转载如何学习和做研究

我以前讲过,学习有一个由薄到厚, 再由厚到薄的过程. 你初学一本书, 加上许多注解, 又看了许多参考书, 于是书就由薄变厚了. 自己以后这就是懂了, 那是自欺欺人, 实际上这还不能算懂. 而真正懂, 还有一个由厚到薄的过程. 也就是全书经过分析, 扬弃枝节, 抓住要点, 甚至于来龙去脉都一目了然了, 在没有这条定理前, 人家是怎样想出来的, 这样才能说开始懂了, 这也是检验自己是否消化了的方

2009-10-30 17:22:00 1084

转载中文分词　　

中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。　　现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。　　1、基于字符串匹配的分词方法　　这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在

2009-10-30 13:31:00 1539 1

转载贝叶斯分类

First Step Find Classes: C1: buys_computer = ‘yes’ C2: buys_computer = ‘no’ Second Step Find P(C1) and P(C2) P( buys_computer = “yes”) = 9/14 = 0

2009-10-30 11:22:00 1501

原创 Exception in thread "main" java.lang.Error: Unresolved compilation problems 解决方案

从http://ictclas.org/Down_OpenSrc.asp 下了个中科院分词软件java开发版程序ictclas4j，在eclipse中写了一个类测试下结果，出现以下错误： Exception in thread "main" java.lang.Error: Unresolved compilation problems: The import org.apache can

2009-10-29 19:23:00 27866

转载中文信息处理的主流技术是什么?

　　中文信息处理的主流技术是什么? 从20世纪50年代初机器翻译课题被提出算起，自然语言处理（NLP）的研发历史至少也有50年了。90年代初,NLP的研究目标开始从小规模受限语言处理走向大规模真实文本处理。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的“第13届国际计算语言学大会”。那些只有几百个词条和数十条语法规则的受限语言分析系统，通常被业内人士戏称为“玩具”，不可能有什

2009-10-28 22:14:00 2092

转载你想带一顶什么样的硕士帽（转载）

硕士研究生学习的动机一个朋友曾问我这样一个问题，他已经被保送研究生了，但是在选择方向的时候他的学长向他建议选择一个将来好找工作的简单的研究方向，否则其他的方向就只能够留校做老师了。我对这个问题有一些不看法。首先一点我觉得要端正的是做研究工作的动机。很多同学走上了研究生道路，但是并不明确自己上研究生的目的，例如有些同学希望通过研究生一张文凭找一个好一点的工作，有些同学甚至只是因为成绩好一点，惧

2009-10-28 12:17:00 1870 2

转载向量空间模型(VSM)在文档相似度计算上的简单介绍

向量空间模型（VSM：Vector space model）是最常用的相似度计算模型，在自然语言处理中有着广泛的应用，这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词：w1，w2，......，w10，而共有三篇文章，d1，d2和d3。统计所得的词频表（杜撰的，为了便于演示用法）如下：常用的向量空间公式见下图：假设计算d1和d2

2009-10-27 22:23:00 3112 2

文本相似计算是进行文本聚类的基础，和传统结构化数值数据的聚类方法类似，文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同，文本数据是一种半结构化数据，在进行文本挖掘之前必须要对文本数据源进行处理，如分词、向量化表示等，其目的就是使用量化的数值来表达这些半结构化的文本数据。使其适用于分

2009-10-27 22:04:00 11216 3

转载文本分类入门（十一）特征选择方法之信息增益

前文提到过，除了开方检验（CHI）以外，信息增益（IG，Information Gain）也是很有效的特征选择方法。但凡是特征选择，总是在将特征的重要程度量化之后再进行选择，而如何量化特征的重要性，就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化，关联性越强，特征得分越高，该特征越应该被保留。在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来

2009-10-27 21:05:00 3387 1

转载文本分类入门（十）特征选择算法之开方检验

前文提到过，除了分类算法以外，为分类文本作处理的特征提取算法也对最终效果有巨大影响，而特征提取算法又分为特征选择和特征抽取两大类，其中特征选择算法有互信息，文档频率，信息增益，开方检验等等十数种，这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得，开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。（什么？你是文史类专业的学生，没有学过数理统计？那你做什么文本分类？在这捣

2009-10-27 20:54:00 3677

转载文本分类入门(九)文本分类问题的分类

开始之前首先说说分类体系。回忆一下，分类体系是指事先确定的类别的层次结构以及文档与这些类别间的关系。其中包含着两方面的内容：一，类别之间的关系。一般来说类别之间的关系都是可以表示成树形结构，这意味着一个类有多个子类，而一个子类唯一的属于一个父类。这种类别体系很常用，却并不代表它在现实世界中也是符合常识的，举个例子，“临床心理学”这个类别应该即属于“临床医学”的范畴，同时也属于“心理学”

2009-10-27 17:31:00 2232

转载文本分类入门(七)相关概念总结

学习方法：使用样例（或称样本，训练集）来合成计算机程序的过程称为学习方法[22]。监督学习：学习过程中使用的样例是由输入/输出对给出时，称为监督学习[22]。最典型的监督学习例子就是文本分类问题，训练集是一些已经明确分好了类别文档组成，文档就是输入，对应的类别就是输出。非监督学习：学习过程中使用的样例不包含输入/输出对，学习的任务是理解数据产生的过程 [22]。典型的非监督学习例子

2009-10-27 17:05:00 2445

转载文本分类入门(六)训练Part 3

SVM算法支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学

2009-10-27 16:52:00 3043 1

转载文本分类入门(五)训练Part 2

将样本数据成功转化为向量表示之后，计算机才算开始真正意义上的“学习”过程。再重复一次，所谓样本，也叫训练数据，是由人工进行分类处理过的文档集合，计算机认为这些数据的分类是绝对正确的，可以信赖的（但某些方法也有针对训练数据可能有错误而应对的措施）。接下来的一步便是由计算机来观察这些训练数据的特点，来猜测一个可能的分类规则（这个分类规则也可以叫做分类器，在机器学习的理论著作中也叫做一个“假设”，因为毕

2009-10-27 16:40:00 3167

转载文本分类入门(四)训练Part 1

文本分类入门(四)训练Part 1训练，顾名思义，就是training（汗，这解释），简单的说就是让计算机从给定的一堆文档中自己学习分类的规则（如果学不对的话，还要，打屁屁？）。开始训练之前，再多说几句关于VSM这种文档表示模型的话。举个例子，假设说把我正在写的“文本分类入门”系列文章的第二篇抽出来当作一个需要分类的文本，则可以用如下的向量来表示这个文本，以便于计算机理解和处理。

2009-10-27 16:14:00 3565 1

转载文本分类入门(三)统计学习方法

文本分类入门(三)统计学习方法前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集，自己总结出用于判别文档类别的规则和依据。理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类，然而遗憾的是，我们所说的“理解”往往指的是文章的语义甚至是语用信息，这一类信息极其复杂，抽象，而且存在上下文相关性，对这类信息如何在计算机中表示都是尚未解决的问题（往大里说，这是一个“

2009-10-27 15:59:00 3710

转载文本分类入门(二)文本分类的方法

文本分类入门(二)文本分类的方法文本分类问题与其它分类问题没有本质上的区别，其方法可以归结为根据待分类数据的某些特征来进行匹配，当然完全的匹配是不太可能的，因此必须（根据某种评价标准）选择最优的匹配结果，从而完成分类。因此核心的问题便转化为用哪些特征表示一个文本才能保证有效和快速的分类（注意这两方面的需求往往是互相矛盾的）。因此自有文本分类系统的那天起，就一直是对特征的不同选择主导着方法派

2009-10-27 15:34:00 4215

转载文本分类入门(一)文本分类问题的定义

一个文本（以下基本不区分“文本”和“文档”两个词的含义）分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个，而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说，就好比你拿一篇文章，问计算机这文章要说的究竟是体育，经济还是教育，计算机答不上就打它的屁屁（……）。注意这个定义当中着重强调的两个事实。第一，用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系，Yaho

2009-10-27 15:22:00 4826

转载文本分类概述

　　概览　　自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。　　文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.文本分类是文本挖掘的一个重要内容。　　所谓文本分类,是指对所给出的文本,给出预定义的一个或多个类别标号,对文本进行准确、高效的分类.它是许多数据

2009-10-27 15:08:00 41564

转载文本分类入门（番外篇）特征选择与特征权重计算的区别

文本分类入门（番外篇）特征选择与特征权重计算的区别在文本分类的过程中，特征（也可以简单的理解为“词”）从人类能够理解的形式转换为计算机能够理解的形式时，实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的，因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后

2009-10-27 14:29:00 3541 4

转载 “如何写好科技论文之我见”结束语-如何写好科技论文之我见（十）

“如何写好科技论文之我见”结束语-如何写好科技论文之我见（十）闵应骅终于在国庆60周年前夕完成了“如何写好科技论文之我见”系列博文。根据自己平时跟学生常讲的一些话，随手写来，难免有欠妥之处，欢迎批评。我写的这些对科技论文的要求，许多都是参照IEEE杂志论文的要求来的。有的网友反映，其实IEEE的论文也不见得都有创新，也有许多是垃圾论文。是的，IEEE出版约160种杂

2009-10-27 11:48:00 2230

转载如何读论文?-如何写好科技论文之我见(八）

如何读论文?-如何写好科技论文之我见(八）闵应骅在某网上看到一篇博文，是一位博士谈他的学习经验。说攻读博士学位期间，要读7000篇论文。我吓了一跳，平均一天要读6篇论文呀！太不可思议。不过，读论文的确很重要，读不好论文就不可能写好论文。读论文可以分为两种：粗读和精读。翻一翻，浏览个标题和摘要，不算读了论文。粗读只要了解文章的研究动机及取得的进展就可以了。这常常是为了扩大

2009-10-27 11:38:00 1504

转载科技论文中的分析与综合-如何写好科技论文之我见(七）

科技论文中的分析与综合-----如何写好科技论文之我见(七）闵应骅分析与综合这两术语大家经常用。但是，真要说它们的定义，那可是哲学范围里的事。形式逻辑里面就有分析与综合。我在初中教几何的时候，就常常告诉学生如何分析和综合。为了求证某一个命题，你就必先证明什么，或作一根辅助线，然后你再证明什么，直到你达到了一个已知的命题，你就找到了证明的方法。这个从未知到已知的过程就是分析。但你写证

2009-10-27 11:28:00 1285

转载科技论文的英文表达-----如何写好科技论文之我见(六）

科技论文的英文表达-----如何写好科技论文之我见(六）闵应骅承网友的鼓励，就英文表达加写一篇。国内一些较好的杂志，现在附了英文题目和摘要，目的是让国外读者也能了解文章的大概内容。摘要要说明本文的研究动机、类型、贡献和实验结果，各用一句话说明。一般都introduce某个概念，present某个方法，propose某个主意，或者provide某个系统的描述。很少用bri

2009-10-27 11:11:00 1418

转载科技论文的可读性-如何写好科技论文之我见(五）

科技论文的可读性-----如何写好科技论文之我见(五）闵应骅科技论文必须有读者。因此，读者的兴趣是杂志接受你的文章的首要条件。像IEEE Transactions的文章，要求每篇文章有一定的读者群，或者是至少5年内读者会有兴趣。它可以是很专业的，但基本上属于某一个学会下面的某一个专业委员会。科技论文包含的技术内容必须有一定的创造性和深度。其内容对理论工作者或实际工作者有

2009-10-27 11:03:00 1247

转载科技论文的组织-如何写好科技论文之我见(四）

科技论文的组织-----如何写好科技论文之我见(四）闵应骅科技论文的组织应该包括：题目---摘要---序言---正文---结论---参考文献。大家都是按这个顺序来写的。也许有人会怀疑：这岂不是有点像“八股文”了吗？不过，明清时代科举考试的时候，时兴八股文，但那时还没有科技论文。科技论文这东西似乎也是西方传进来的。它对形式并没有特定的要求，但是，按这么组织似乎更能说清楚问题。所以

2009-10-27 10:58:00 1090