机器学习-文本分析

文本分析
文本数据
 
文本分析

停用词                                                                     

1.!

2."
3.#
4.$
5.%
6.&
7.'
8.(
9.)
10.*
11.+
12.,
13.-
14.--
15..
16...
17....
18.......
19....................
20../
21..一
1.一下
2.一个
3.一些
4.一何
5.一切
6.一则
7.一则通过
8.一天
9.一定
10.一方面
11.一旦
12.一时
13.一来
14.一样
15.一次
16.一片
17.一番
18.一直
19.一致
20.一般
21.一起
1.语料中大量出现
2.没啥大用
3.留着过年嘛?
 
文本分析
Tf-idf:关键词提取
《中国的蜜蜂养殖》: 进行词频(Term Frequency,缩写为TF)统计
出现次数最多的词是----“的”、“是”、“在”----这一类最常用的词(停用词)
“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多,重要性是一样的?
"中国"是很常见的词,相对而言,"蜜蜂"和"养殖"不那么常见
 
文本分析
"逆文档频率"(Inverse Document Frequency,缩写为IDF)
如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性
正是我们所需要的关键词
 
文本分析
Tf-idf:关键词提取
《中国的蜜蜂养殖》:假定该文长度为1000个词,"中国"、"蜜蜂"、"养殖"各出现20次,
则这三个词的"词频"(TF)都为0.02
搜索Google发现,包含"的"字的网页共有250亿张,假定这就是中文网页总数。
包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,
包含"养殖"的网页为0.973亿张
 
文本分析
Tf-idf:关键词提取
 
文本分析
相似度
 
文本分析
相似度
句子A:我喜欢看电视,不喜欢看电影。
句子B:我不喜欢看电视,也不喜欢看电影。
分词:
句子A:我/喜欢/看/电视,不/喜欢/看/电影。
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
语料库:我,喜欢,看,电视,电影,不,也。
词频:
句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。
句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。
词频向量:
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]
 
文本分析
相似度
 
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值