机器学习之新闻分类

大家常看的新闻类APP如今日头条、UC头条等,只要是打开以后,各种新闻就已经分好类了,可以根据自己的喜好查看相应的新闻内容。社会新闻、娱乐、电影等各种各样的分类。

这些新闻一般来源于不是一个网站,而是来自于多个的网站,然后把这些新闻通过一定的方法分成不同类别供大家查看。

如果是后台有工作人员进行人工的分类,根据现在新闻的更新速度,要需要多少这样的工作人员,需要多么专业与敬业的工作人员!

显然网页上的新闻不可能是通过人工分类,而是同时计算机进行整理分类的。

所谓的新闻分类,无非就是把内容相似的网页归到一类中。如果是人工来分类的话,首先读者要理解这个新闻讲的是什么,主题是什么,最后根据不同的主题进行分类。

但是如何通过计算机来进行分类呢?计算机读不懂新闻的内容,更不会提出这篇新闻的主题。那么就需要把新闻变成一组可以计算的数据,然后找出这两篇新闻的相似性。

首先,新闻文章是通过词组成句子来表达出不同意思,但是同一类新闻的用词是相似的,不同类的新闻用词各不相同。比如:网红、娱乐、粉丝、明星、演唱会等一般出现在娱乐新闻总;房价、美元、基金、银行、物价等一般出现在金融类新闻中。

不难看出,和新闻主题相关的词出现的频率就高。

如何量化这次高频词呢?对某一类新闻出现的频率较高的词定义一个多维的向量,每一个词代表一个维度,这样就形成了一个这类新闻的一个特征向量。两篇新闻长得像不像,主题是否相似,取决于我们衡量他们之间的特征向量的相似性。

高中学过向量的都知道,二维空间中向量就是从一点出发的有向线段,有起点、终点、长度等维度。

不同的新闻由于文本的长度不同,他们特征向量的各个维度值大小也不一样,比较各个维度上的值得大小意义不大。但是向量的方向却又很大的意义:如果两个向量的方向一致,说明这两篇文章的用词一致,想要表达的主题也是一样的,可以判定这两篇新闻是同一类新闻。如果这两个向量的方向不一致,也就是两个向量的夹角很大,说明这两片文章的用词不一样,表达的主题也不一样,那么这两篇文章就不属于同一类新闻了。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wb175208

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值