利用cos 文本自动分类

利用cos 文本自动分类

文本处理:
    1.找到一个词汇表,将该词汇表进行编码(1,2,3,4....)
    2.把该词汇表变为一个二维矩阵
    3.将文章分词后在二维矩阵中填入对应的词(有多少个词就在该词对应的编码处填多少)
    <需要建立两个矩阵,因为后面要计算两篇文章的相似度>

计算原理:
      不同的词在不同类型上的文章出现的次数会不同,股票,涨停,基金,黄金,货币这些词会出现在与金融有关的文章上,而 自然,风景,景色,太阳,花。就会很少出现。
      如果两个文章属于同一类的话,他们的特征向量会在某几个维度上比较大。所以,cos在文本分类处理才能够实现
  而 cos 正是计算两个向量的距离(相似度)

计算公式:

cos公式

进行分类:
  采用由下而上的方法进行文章的分类,把相似性在一个阈值的分为一类,而阈值逐渐增大。
  阈值的选取尤为关键,如果阈值太大文章中的相关性就减少了,这是就可以停止阈值的选取。

算法优化
  1.利用上述公式计算时,你会发现每一个文章的内积是不变的。即:分母的一部分是不变的,所以只用计算一次后便可以把它存储起来
  2.在两篇文章中,同时没有出现的词汇可以从他们各自的矩阵中删去。只考虑非零元素即可。
  3.简化虚词,我有一篇博客曾写过ite-if算法。曾提到,文章中的虚词会影响两篇文章主题的相似性。
    所以删除虚词后不仅可以优化计算速度,而且对文章的分类有更好的帮助作用
  4.位置加权。
    出现在标题中的词往往会比出现在正文中的主题更加重要。而正文中的第一段和最后一段在正文重要程度也不同。所以对 标题 第一段 最后一段 进行加权可以提高文本分类的准确性
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值