《数学之美》第十四章——余弦定理和新闻的分类

George&Rita

于 2021-04-21 17:05:16 发布

阅读量779

点赞数

分类专栏：数学之美文章标签：数学之美新闻分类算法机器学习

本文链接：https://blog.csdn.net/weixin_41799019/article/details/115959650

版权

数学之美专栏收录该内容

19 篇文章

订阅专栏

1 新闻的特征向量

    我们在新闻页面中浏览新闻的时候，通常会有很多模块，在这些模块里面的新闻都是具有一定相关性的。如果单纯依靠人工对大量的新闻进行分类显然是不可能的，因此需要让计算机能够“算”新闻，从而将新闻进行分类。
    我们知道，同一类新闻用的词是比较相似的，不同类的新闻用词会存在较大的不同。并且一篇文章中，不同的词重要性程度也不相同。
    因此我们可以利用之前学习的TF-IDF算法，计算它们的TF-IDF值。

    现在假设词汇表中有64000个词，如下图所示。
在这里插入图片描述
    然后我们选择一篇新闻，计算这64000个词的TF-IDF值，如下图所示。

    因此我们可以将这些TF-IDF值看成是一个具有64000维的向量。然后我们就可以使用一个特征向量去代表一篇新闻。

2 向量距离的度量

对于不同的新闻，如果这两个新闻相似度比较高，那么出现相同词汇的频率就越高。因此对于相似的新闻，那么它们的特征向量会在某几个维度的值都比较大，而在其他维度的值都比较小。反之如果两个新闻不相似，那么在值较大的维度就不会有什么交集。

    因此这里就引入余弦定理。通过余弦定理可以来衡量两个向量的相近程度。
在这里插入图片描述
    通过基本的数学知识，我们应该知道余弦的公式如下：

    假设新闻X和新闻Y对应的向量分别是：

那么它们夹角的余弦等于

    由于向量中的每个变量都是正数，所以余弦值必定在0和1之间，也就是夹角都是在0到90之间。当计算结果等于1时，那么说明两个向量夹角为0，即两篇新闻完全相同。当计算结果等于0时，那么说明两个新闻完全无关。