利用cos 文本自动分类

最新推荐文章于 2022-10-22 10:18:35 发布

biaozong5071

最新推荐文章于 2022-10-22 10:18:35 发布

阅读量304

点赞数 1

分类专栏：机器学习线性代数文章标签：算法文章自动分类自然语言处理

本文链接：https://blog.csdn.net/biaozong5071/article/details/78208156

版权

机器学习同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

线性代数

1 篇文章 0 订阅

订阅专栏

利用cos 文本自动分类

文本处理：
    1.找到一个词汇表，将该词汇表进行编码（1,2,3,4....）
    2.把该词汇表变为一个二维矩阵
    3.将文章分词后在二维矩阵中填入对应的词（有多少个词就在该词对应的编码处填多少）
    <需要建立两个矩阵，因为后面要计算两篇文章的相似度>

计算原理：
      不同的词在不同类型上的文章出现的次数会不同，股票，涨停，基金，黄金，货币这些词会出现在与金融有关的文章上，而 自然，风景，景色，太阳，花。就会很少出现。
      如果两个文章属于同一类的话，他们的特征向量会在某几个维度上比较大。所以，cos在文本分类处理才能够实现
  而 cos 正是计算两个向量的距离（相似度）

计算公式：

cos公式

进行分类：
  采用由下而上的方法进行文章的分类，把相似性在一个阈值的分为一类，而阈值逐渐增大。
  阈值的选取尤为关键，如果阈值太大文章中的相关性就减少了，这是就可以停止阈值的选取。

算法优化
  1.利用上述公式计算时，你会发现每一个文章的内积是不变的。即：分母的一部分是不变的，所以只用计算一次后便可以把它存储起来
  2.在两篇文章中，同时没有出现的词汇可以从他们各自的矩阵中删去。只考虑非零元素即可。
  3.简化虚词，我有一篇博客曾写过ite-if算法。曾提到，文章中的虚词会影响两篇文章主题的相似性。
    所以删除虚词后不仅可以优化计算速度，而且对文章的分类有更好的帮助作用
  4.位置加权。
    出现在标题中的词往往会比出现在正文中的主题更加重要。而正文中的第一段和最后一段在正文重要程度也不同。所以对 标题 第一段 最后一段 进行加权可以提高文本分类的准确性

biaozong5071

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用cos 文本自动分类

利用cos 文本自动分类文本处理： 1.找到一个词汇表，将该词汇表进行编码（1,2,3,4....） 2.把该词汇表变为一个二维矩阵 3.将文章分词后在二维矩阵中填入对应的词（有多少个词就在该词对应的编码处填多少） <需要建立两个矩阵，因为后面要计算两篇文章的相似度>计算原理：不同的词在不同类型上的文章出现的次数会不同，股票，涨停，基金，黄金，货币这些词会出现
复制链接

扫一扫

专栏目录