兴趣学习: 余弦定理的应用&nb…

新闻的特征向量
        新闻的分类, 把相识的新闻放在同一类中, 把新闻的文字变成一组可以计算的数字, 提出一个概念
    单文本词汇频率/逆文本频率值TF-IDF.
(
TF-IDF:
      一次是TF: 词频, 一词语在文本出现的次数除以该文本的总词数, 例如: "我们"出现了3次, 一共有100个语数. TF = 3/100 = 0.03;
      DF: 文件频率, 一词在多少份文件出现过的次数/总文件数. 例如: “我们”出现在1000份文件中, 一共有
10 000 000份文件,  DF = 1000/ 10 000 000 = 0.0001, 那么IDF = log(10 000 000/ 1000) = 4
TF-IDF = 0.03*4 = 0.12
)
        我们现在举一个例子, 在搜索过程中关键字k1, k2, k3相关搜索, 我们知道每一个ki关键字是具有不同
    的权重的, 那么这个权重用什么来表示呢? 显然, 用TF-IDF来表示, k1,k2,k3的搜索就应该根据下面式子:
    TF1*IDF1 + TF2*IDF2 + TF3*IDF3.
        一篇文章里面会出现许许多多的词汇, k1, k2, k3, k4,...,kn, 并且每一个词都会有一个TF-IDF值相对
  应, 那么我们看作这篇文章有时一个n维的向量, 有这样的关系(k1, TF-IDF1), (k2, TF-IDF2), ....; 这里
  反映了一篇文章里面有n维向量表示它的特征, 当然如果两篇文章的主题内容相同的话, 它们用的词会相识,     这样可以判断两篇文章是否接近.
        那么怎么计算它们的相识度呢? 一个初中就学到的-- 余弦定理. cosA = (b^2+c^2 - a^2)/(2*b*c);
    用向量表示: cosA = <b,c>/(|b| * |c|); 我们知道两文章都有相应的特征向量, x1, x2, x3, ...., xn
    和 y1,y2,y3, ... , yn; 它们的余弦结果:
         c
osa = (x1*y1+x2*y2+x3*y3 + ... + xn*yn) / (sqrt(x1^2+...+xn^2) + sqrt(y1^2+...+yn^2));
        结果会在0~1之间, 当结果为1时, 表示两篇文章时完全相同, 这样我们可以将结果越接近1的一类文章
    归到一类中; 当结果越接近0时, 表示两篇文章的相关性不大.
        有了余弦定理判断文本的相识度, 文章分类就不是难事, 剩下时实现的细节问题.

    
总结: 其实我看完了书上的余弦定理解决文章分类问题, 让我想到时人脸识别用的PCA方法, 将图片投影
    到向量上, 然后通过计算一个欧拉距离判断图片的相识度. 还是‘术’与‘道’的问题, 具体做事的方法       是‘术’,做事的原理和原则时‘道’; 我学习的路还远的很, 加油吧自己!!!
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值