【数学之美 系列十二】 余弦定理和新闻的分类

转载 2007年10月05日 04:14:00

2006年7月20日 上午 10:12:00
发表者:吴军,Google 研究员

余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。

Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。

我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻。回忆一下我们在“如何度量网页相关性” 一文中介绍的TF/IDF 的概念。对于一篇新闻中的 所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高, TF/IDF 值很大。我 们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为

单词编号 汉字词
------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服装
....
64000 做作

在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为

单词编号 TF/IDF 值
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075


如果单词表中的某个次在新闻中没有出现,对应的值为零,那么这 64,000 个数,组成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然。

学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。

余弦定理对我们每个人都不陌生,它描述了三角形中任何一个夹角和三个边的关系,换句话说,给定三角形的三条边,我们可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为 a, b 和 c,对应的三个角为 A, B 和 C,那么角 A 的余弦 --

如果我们将三角形的两边 b 和 c 看成是两个向量,那么上述公式等价于

其中分母表示两个向量 b 和 c 的长度,分子表示两个向量的内积。举一个具体的例子,假如新闻 X 和新闻 Y 对应向量分别是
x1,x2,...,x64000 和
y1,y2,...,y64000,
那么它们夹角的余弦等于

当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。  

数学之美之余弦定理与新闻分类

数学之美之余弦定理与新闻分类 By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。 在上一篇博客中,...
  • whiterbear
  • whiterbear
  • 2015年05月08日 19:47
  • 2714

《数学之美》信息整合以及个人领悟

统计语言模型 谈谈中文分词 隐含马尔可夫模型在语言处理中的应用 怎样度量信息? 布尔代数和搜索引擎的索引 图论和网络爬虫 (Web Crawlers) 信息论在信息处理中的应用 贾里尼克的故事和现代语...
  • whaoXYSH
  • whaoXYSH
  • 2014年01月27日 22:24
  • 1523

数学之美系列之七:信息论在信息处理中的应用

 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自...
  • zhz_2V
  • zhz_2V
  • 2007年07月03日 12:35
  • 644

数学之美系列完整版(最新全集列表)

数学之美系列完整版(最新全集列表)作者:吴军, Google 研究员 来源:Google黑板报 数学之美 一 统计语言模型 数学之美 二 谈谈中文分词 数学之美 三 隐含马尔可夫模型...
  • happylife1527
  • happylife1527
  • 2012年10月23日 09:15
  • 908

《数学之美》中的自然语言处理

1.      信息的冗余是信息安全的保障。 2.      语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,它是我们从事机器翻译研究的基础。   现在自然语言处理多用统计语言...
  • sinat_35496345
  • sinat_35496345
  • 2017年02月09日 12:30
  • 486

数学之美系列十二:余弦定理和新闻的分类

当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。 余弦定理和新...
  • u010555682
  • u010555682
  • 2014年07月02日 18:23
  • 429

数学之美 系列 十二 - 余弦定理和新闻的分类

  数学之美 系列 十二 - 余弦定理和新闻的分类2006年7月20日 上午 10:12:00uT("time115337391327964752");发表者:吴军,Google 研究员 余弦定理和新...
  • justin12zhu
  • justin12zhu
  • 2009年01月13日 23:36
  • 576

数学之美 系列十二 余弦定理和新闻的分类

  发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新...
  • xiaoliangbuaa
  • xiaoliangbuaa
  • 2007年01月05日 21:14
  • 535

数学之美 系列十二 - 余弦定理和新闻的分类

7/20/2006 10:12:00 上午发表者:吴军,Google研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Googl...
  • pengjetty
  • pengjetty
  • 2006年12月13日 18:06
  • 491

余弦相似定理和新闻分类

余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中(...
  • qq_32453673
  • qq_32453673
  • 2017年05月21日 22:47
  • 212
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:【数学之美 系列十二】 余弦定理和新闻的分类
举报原因:
原因补充:

(最多只允许输入30个字)