python数据分析与挖掘学习笔记（3）_小说文本数据挖掘part1

最新推荐文章于 2024-07-30 13:41:33 发布

小胖子小胖子

最新推荐文章于 2024-07-30 13:41:33 发布

阅读量5.5k

点赞数 2

分类专栏： python数据分析与挖掘文章标签： python 数据分析与挖掘

本文链接：https://blog.csdn.net/Ying_Xu/article/details/54312734

版权

本文介绍了使用jieba进行Python数据分析与挖掘的过程，包括全模式、精准模式和默认模式的词性标注，以及如何提取关键字和处理中文文档的编码问题。

摘要由CSDN通过智能技术生成

这一节主要是对小说文本数据的挖掘项目。
文本挖掘的一个重要的应用是进行站点的个性化推荐。将用户感兴趣的信息推送给对应的用户，可以更好地发挥该信息的价值。比如，我们常常会在浏览网页的时候看到相关的广告是我们感兴趣的，新闻推送的是我们感兴趣的文章，阅读小说推荐的是我们想看的小说，逛淘宝的时候也会发现有一部分猜你喜欢，推荐的是你多半感兴趣的商品；网易云音乐的每日推荐曲目也是根据用户的听歌记录进行类似推荐的，等等。

这都是文本挖掘以及相关信息挖掘的技术实现。文本挖掘是数据挖掘技术的其中一种。文本挖掘是对现有的一些文本信息进行分析，处理，从而提取出一些有价值的信息供我们使用的一种技术。
进行个性化推荐的本质其实就是计算文本之间的相似度，推荐与用户浏览数据最相似的内容作为推荐，能够在最大程度上给用户推荐起感兴趣的内容。
实现的核心步骤为：
1、读取文档
2、对要计算的多篇文档进行分词
3、对文档进行整理成指定格式，方便后续进行计算
4、计算出词语的频率
5【可选】、对频率低的词语进行过滤
6、通过语料库建立词典
7、加载要对比的文档
8、将要对比的文档通过doc2bow转化为稀疏向量
9、对稀疏向量进行进一步处理，得到新语料库
10、将新语料库通过tfidfmodel进行处理，得到tfidf
11、通过token2id得到特征数
12、稀疏矩阵相似度，从而建立索引
13、得到最终相似度结果

要实现以上思路，我们需要用到python的中文分词工具包jieba，它的处理思路简单，主要思路如下：
1. 加载词典dict