机器学习-文本分析

最新推荐文章于 2023-06-14 14:41:30 发布

千尺浪

最新推荐文章于 2023-06-14 14:41:30 发布

阅读量2.7k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_40061167/article/details/78636611

版权

机器学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

文本分析
文本数据

文本分析

停用词

1.!

2."
3.#
4.$
5.%
6.&
7.'
8.(
9.)
10.*
11.+
12.,
13.-
14.--
15..
16...
17....
18.......
19....................
20../
21..一
1.一下
2.一个
3.一些
4.一何
5.一切
6.一则
7.一则通过
8.一天
9.一定
10.一方面
11.一旦
12.一时
13.一来
14.一样
15.一次
16.一片
17.一番
18.一直
19.一致
20.一般
21.一起
1.语料中大量出现
2.没啥大用
3.留着过年嘛？

文本分析
Tf-idf：关键词提取
《中国的蜜蜂养殖》: 进行词频（Term Frequency，缩写为TF）统计
出现次数最多的词是----“的”、“是”、“在”----这一类最常用的词（停用词）
“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多，重要性是一样的？
"中国"是很常见的词，相对而言，"蜜蜂"和"养殖"不那么常见

文本分析
"逆文档频率"（Inverse Document Frequency，缩写为IDF）
如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性
正是我们所需要的关键词

文本分析
Tf-idf：关键词提取
《中国的蜜蜂养殖》：假定该文长度为1000个词，"中国"、"蜜蜂"、"养殖"各出现20次，
则这三个词的"词频"（TF）都为0.02
搜索Google发现，包含"的"字的网页共有250亿张，假定这就是中文网页总数。
包含"中国"的网页共有62.3亿张，包含"蜜蜂"的网页为0.484亿张，
包含"养殖"的网页为0.973亿张

文本分析
Tf-idf：关键词提取

文本分析
相似度

文本分析
相似度
句子A：我喜欢看电视，不喜欢看电影。
句子B：我不喜欢看电视，也不喜欢看电影。
分词：
句子A：我/喜欢/看/电视，不/喜欢/看/电影。
句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。
语料库：我，喜欢，看，电视，电影，不，也。
词频：
句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。
句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。
词频向量：
句子A：[1, 2, 2, 1, 1, 1, 0]
句子B：[1, 2, 2, 1, 1, 2, 1]

文本分析
相似度