新闻分类任务

1、停用词

我们、我、今天,一天,一夏等和我们需要的词没有关系,没什么大的用,不需要,用停用词表进行停用。

2、Tf-idf:关键词提取

Tf:词频,idf:逆词频

先去停用词,再统计词频。词频一样我们认为重要性相同。

我们目的:找到文章中重要的主题,idf,逆文档,目的:某个词在文章中非常少见,但它在这篇文章中多次出现,那么它很可能就反应出这篇文章的特性,正是我们所需要的关键词。

以10

以10为底的。

TF-IDF = 词频(TF)*逆文档率(IDF)

3、文档相似度

句子A:我喜欢看电视,不喜欢看电影。

句子B:我不喜欢看电视,也不喜欢看电影。

分词:

句子A:我/喜欢/看/电视,不/喜欢/看/电影。

句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。

语料库:[我,喜欢,看,电视,电影,不,也。]

词频:

句子A:我1,喜欢2,看2,电视1,电影1,不1,也0。

句子B:我1,喜欢2,看2,电影1,电影1,不2,也1。

词频向量:

句子A:[1,2,2,1,1,1,0]

句子B:[1,2,2,1,1,2,1]

word2vec、Gensim将词向量化。

相似度:

 

转载于:https://my.oschina.net/u/3955849/blog/3027635

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值