第14章 余弦定理和新闻的分类
1. 新闻的特征向量
对64000个汉字词进行编号,对应TF-IDF值,构成64000维的向量。
2. 向量距离的度量
两篇新闻的主题是否接近,取决于他们的特征向量长得像不像。
利用向量的知识,计算两个向量之间的夹角来判断新闻主题的相似性。
新闻的分类:(该方法准确信号,适合百万级)
1) 已知一些新闻的类别的特征向量,计算要被分类的新闻的特征向量与类别特征向量的相似性。
2) 自顶向上不断合并的办法(分类聚合)
[1] 计算所有新闻的相似性,把相似性大于一个阈值的新闻合并成一个小类,确定N1个阈值,则被分成N1个小类
[2] 把每一个小类看成一个整体计算特征向量,再分类
3. 余弦定理计算的技巧
1) 大数据时的余弦计算
长度预存,避免重复;
计算内积时,只考虑非零元素
删除虚词(噪音)
2) 位置的加权
出现在文本不用位置的词在分类时的重要性也不相同。
第15章 矩阵运算和文本处理中的两个分类问题
1. 文本和词汇的矩阵
一次把所有新闻相关性计算出来,使用奇异值分解(SVD)
用一个大矩阵来描述成千上万文章和几十上百万个词的关联性。每一行对应一篇文章,每一列对应一个词。
其中 表示第j个词在第i篇文章中的加权词频(例如TF-IDF)
A=X*B*Y
A为1000000*500000:
X为1000000*100:对词进行分类的结果,每一行表示一个词,每一列表示一个语义相近的词类,元素表示这个词在这个语类中的相关性;
B为100*100:词类和文章的类之间的相关性。
Y为100*500000:对文本的分类结果,每一列对应一篇文本,每一行对应一个主题。每个元素表示这篇文本在不同主题中的相关性。
进行奇异值分解后,能够同时得到近义词分类和文章分类
2. 奇异值分解的方法和应用场景
严格数学意义上的SVD
奇异值分解两部:
1) 将A变换成一个双对角矩阵
2) 将双对角矩阵变成奇异值分解的三个矩阵
相比于上一章介绍的利用文本特征向量余弦的距离自底向上的分类方法,奇异值分解的优点是能较快地得到结果,但该方法略显粗糙,适合处理超大规模文本的粗分类。
实际应用中,可以先进行奇异值分解然后得到粗分类的结果,再利用计算向量余弦的方法在粗分类的基础上。进行几次迭代,得到比较精确的结果。