兴趣学习: 余弦定理的应用&nb…_用余弦定理解背包问题-CSDN博客

本文链接：https://blog.csdn.net/smile_benson/article/details/51458292

新闻的特征向量

新闻的分类, 把相识的新闻放在同一类中, 把新闻的文字变成一组可以计算的数字, 提出一个概念
单文本词汇频率/逆文本频率值TF-IDF.
(
TF-IDF:
一次是TF: 词频, 一词语在文本出现的次数除以该文本的总词数, 例如: "我们"出现了3次, 一共有100个语数. TF = 3/100 = 0.03;
DF: 文件频率, 一词在多少份文件出现过的次数/总文件数. 例如: “我们”出现在1000份文件中, 一共有
10 000 000份文件, DF = 1000/ 10 000 000 = 0.0001, 那么IDF = log(10 000 000/ 1000) = 4
TF-IDF = 0.03*4 = 0.12
)
我们现在举一个例子, 在搜索过程中关键字k1, k2, k3相关搜索, 我们知道每一个ki关键字是具有不同
的权重的, 那么这个权重用什么来表示呢? 显然, 用TF-IDF来表示, k1,k2,k3的搜索就应该根据下面式子:
TF1*IDF1 + TF2*IDF2 + TF3*IDF3.
一篇文章里面会出现许许多多的词汇, k1, k2, k3, k4,...,kn, 并且每一个词都会有一个TF-IDF值相对
应, 那么我们看作这篇文章有时一个n维的向量, 有这样的关系(k1, TF-IDF1), (k2, TF-IDF2), ....; 这里
反映了一篇文章里面有n维向量表示它的特征, 当然如果两篇文章的主题内容相同的话, 它们用的词会相识, 这样可以判断两篇文章是否接近.
那么怎么计算它们的相识度呢? 一个初中就学到的-- 余弦定理. cosA = (b^2+c^2 - a^2)/(2*b*c);
用向量表示: cosA = <b,c>/(|b| * |c|); 我们知道两文章都有相应的特征向量, x1, x2, x3, ...., xn

和 y1,y2,y3, ... , yn; 它们的余弦结果:
cosa = (x1*y1+x2*y2+x3*y3 + ... + xn*yn) / (sqrt(x1^2+...+xn^2) + sqrt(y1^2+...+yn^2));
结果会在0～1之间, 当结果为1时, 表示两篇文章时完全相同, 这样我们可以将结果越接近1的一类文章
归到一类中; 当结果越接近0时, 表示两篇文章的相关性不大.
有了余弦定理判断文本的相识度, 文章分类就不是难事, 剩下时实现的细节问题.

总结: 其实我看完了书上的余弦定理解决文章分类问题, 让我想到时人脸识别用的PCA方法, 将图片投影
到向量上, 然后通过计算一个欧拉距离判断图片的相识度. 还是‘术’与‘道’的问题, 具体做事的方法是‘术’,做事的原理和原则时‘道’; 我学习的路还远的很, 加油吧自己！！！