python数据挖掘与分析心得体会_Python数据挖掘——文本分析

VIP文章 weixin_39793576

于 2020-12-24 02:07:10 发布

阅读量2.6k

点赞数

文章标签： python数据挖掘与分析心得体会

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39793576/article/details/111930250

版权

作者 | zhouyue65

来源 | 君泉计量

原文 | Python数据挖掘——文本分析

文本挖掘：从大量文本数据中抽取出有价值的知识，并且利用这些知识重新组织信息的过程。

一、语料库(Corpus)

语料库是我们要分析的所有文档的集合。

二、中文分词

2.1 概念：

中文分词(Chinese Word Segmentation)：将一个汉字序列切分成一个一个单独的词。

eg：我的家乡是广东省湛江市-->我/的/家乡/是/广东省/湛江市

停用词(Stop Words)：

数据处理时，需要过滤掉某些字或词

√泛滥的词，如web、网站等。

√语气助词、副词、介词、连接词等，如的，地，得；

2.2 安装Jieba分词包：

最简单的方法是用CMD直接安装：输入pip install jieba，但是我的电脑上好像不行。

后来在这里：https://pypi.org/project/jieba/#files下载了jieba0.39解压缩后放在Python36\Lib\site-packages里面，然后在用cmd，pip install jieba 就下载成功了，不知道是是什么原因。

然后我再anaconda 环境下也安装了jieba，先在Anaconda3\Lib这个目录下将jieba0.39的解压缩文件放在里面，然后在Anaconda propt下输入 pip install jieba，如下图：

2.3 代码实战：

jieba最主要的方法是cut方法：

jieba.cut方法接受两个输入参数:

1) 第一个参数为需要分词的字符串

2)cut_all参数用来控制是否采用全模式

jieba.cut_for_search方法接受一个参数：需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

注意：待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list代码示例( 分词

最低0.47元/天解锁文章

weixin_39793576

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python数据挖掘与分析心得体会_Python数据挖掘——文本分析

作者 | zhouyue65来源 | 君泉计量原文 | Python数据挖掘——文本分析文本挖掘：从大量文本数据中抽取出有价值的知识，并且利用这些知识重新组织信息的过程。一、语料库(Corpus)语料库是我们要分析的所有文档的集合。二、中文分词2.1 概念：中文分词(Chinese Word Segmentation)：将一个汉字序列切分成一个一个单独的词。eg：我的家乡是广东省湛江市-->...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。