《数学之美》第14章 余弦定理和新闻的分类

1 新闻的特征向量

    对于一篇新闻中的所有实词,计算出它们的TF-IDF值。把这些值按照对应的实词在词汇表的位置依次排序,就得到一个向量。每一篇新闻都可以对应这样一个特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献。

2 向量矩阵的度量

    同一类新闻一定是某些主题词用得较多,另外一些词则用的较少。反映在每一篇新闻的特征上,如果两篇文章属于同一类,它们的特征向量在某几个维度的值都比较大,而在其他维度的值都比较小。反过来看,如果两篇新闻不属于同一类,由于用词的不同,在它们的特征向量中,值比较大的维度应该没有什么交集。

    当两条新闻向量的余弦等于1时,夹角为0,两条新闻完全相同;当夹角的余弦接近于1时,两条新闻相似,从而可以归成一类;夹角的余弦越小,夹角越大,两条新闻越不相关。

3 计算余弦向量的技巧

    3.1 大数据量时的余弦向量

        首先,分母部分不需要重复计算。

        其次,在计算分子即两个向量的内积时,只考虑向量中的非零元素。

        最后,可以删除虚词,包括搜索中的非必留词以及一些连词、副词和介词

    3.2 位置的加权

        和计算搜索相关性一样,出现在文本不同位置的词在分类时的重要性也不同。要对标题和重要位置的词进行额外的加权,以提高文本分类的准确性。

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值