数学之美 系列 12 - 余弦定理和新闻的分类

转载 2007年10月02日 12:03:00

余弦定理和新闻的分类 

吴军,Google 研究员

 

       余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。

       Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。

      我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻。回忆一下我们在“
如何度量网页相关性”一文中介绍的TF/IDF 的概念。对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为

单词编号 汉字词
------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服装
....
64000 做作

      在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为

单词编号 TF/IDF 值
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075


       如果单词表中的某个次在新闻中没有出现,对应的值为零,那么这 64,000 个数,组成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然。

       学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。

       余弦定理对我们每个人都不陌生,它描述了三角形中任何一个夹角和三个边的关系,换句话说,给定三角形的三条边,我们可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为 a, b 和 c,对应的三个角为 A, B 和 C,那么角 A 的余弦 --



       如果我们将三角形的两边 b 和 c 看成是两个向量,那么上述公式等价于



      其中分母表示两个向量 b 和 c 的长度,分子表示两个向量的内积。举一个具体的例子,假如新闻 X 和新闻 Y 对应向量分别是
x1,x2,...,x64000 和
y1,y2,...,y64000,
那么它们夹角的余弦等于,



       当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。



       我们在中学学习余弦定理时,恐怕很难想象它可以用来对新闻进行分类。在这里,我们再一次看到数学工具的用途。

相关文章推荐

数学之美系列十二:余弦定理和新闻的分类

余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。 Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到...
  • cai0538
  • cai0538
  • 2012年04月07日 15:37
  • 507

数学之美之余弦定理与新闻分类

数学之美之余弦定理与新闻分类 By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。 在上一篇博客中,...

数学之美:GOOGLE新闻归类算法与余弦定理

原文:http://www.kuqin.com/math/20071204/2786.html余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余...

从网页相关性TF-IDF到余弦定理的新闻分类的程序实现

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。权重计算方法经常会和余弦相似度(cosine simila...

余弦定理实现新闻自动分类算法

前言余弦定理,这个在初中课本中就出现过的公式,恐怕没有人不知道的吧。但是另外一个概念,可能不是很多的人会听说过,他叫空间向量,一般用e表示,高中课本中有专门讲过这个东西,有了余弦定理和向量空间,我们就...

余弦定理和新闻分类

新闻的特征向量 把文字的新闻变成一组可计算的数字,再设计一个算法类计算任意两篇新闻的相似性。 找一组数字(或者向量)描述一篇新闻,词是信息的载体,因此要对每个实词的重要性进行排序。 在“如何度量...

URAL 1294. Mars Satellites(余弦定理 数学啊 )

URAL 1294. Mars Satellites(余弦定理 数学啊 )

关于数学中的正弦定理和余弦定理的相关信息的概述

以下内容都是从网上复制下来,主要是为了求相关几何中的面积。 在△ABC中,角A、B、C所对的边长分别为a、b、c,三角形外接圆的半径为R。则有 即,在一个三角形中,各边和它...

灰度投影法和余弦定理用于阵列图像分类

一直在断断续续的做些阵列相机的研究,在用阵列相机进行拍照的时候,镜头并非是同时拍摄,而是各镜头按照一定顺序轮流拍摄,理论上阵列相机拍照的次序是固定的。 如下图为阵列相机: 阵列相机拍摄次序: ...

利用余弦定理制作连杆效果

前些天看看MIT的公开课:折叠几何算法,里面演示了一段小程序,通过几根杆子的连接,可以将圆周运动转换为直线运动。效果是这样的: 问题源于蒸汽机的发明:如何将上下方向的活塞运动转化为推动轮子滚动的圆...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数学之美 系列 12 - 余弦定理和新闻的分类
举报原因:
原因补充:

(最多只允许输入30个字)