1 新闻的特征向量
对于一篇新闻中的所有实词,计算出它们的TF-IDF值。把这些值按照对应的实词在词汇表的位置依次排序,就得到一个向量。每一篇新闻都可以对应这样一个特征向量,向量中每一个维度的大小代表每个词对这篇新闻主题的贡献。
2 向量矩阵的度量
同一类新闻一定是某些主题词用得较多,另外一些词则用的较少。反映在每一篇新闻的特征上,如果两篇文章属于同一类,它们的特征向量在某几个维度的值都比较大,而在其他维度的值都比较小。反过来看,如果两篇新闻不属于同一类,由于用词的不同,在它们的特征向量中,值比较大的维度应该没有什么交集。
当两条新闻向量的余弦等于1时,夹角为0,两条新闻完全相同;当夹角的余弦接近于1时,两条新闻相似,从而可以归成一类;夹角的余弦越小,夹角越大,两条新闻越不相关。
3 计算余弦向量的技巧
3.1 大数据量时的余弦向量
首先,分母部分不需要重复计算。
其次,在计算分子即两个向量的内积时,只考虑向量中的非零元素。
最后,可以删除虚词,包括搜索中的非必留词以及一些连词、副词和介词
3.2 位置的加权
和计算搜索相关性一样,出现在文本不同位置的词在分类时的重要性也不同。要对标题和重要位置的词进行额外的加权,以提高文本分类的准确性。