文本挖掘学习（一）分词、词频、词云

最新推荐文章于 2024-06-20 14:46:57 发布

一币通关

最新推荐文章于 2024-06-20 14:46:57 发布

阅读量1.8k

点赞数 1

分类专栏：文本挖掘文章标签：文本挖掘词云中文分词

本文链接：https://blog.csdn.net/beibidou/article/details/87886645

版权

本文档介绍了文本挖掘的过程，包括准备语料库、进行分词操作、统计词频以及利用Wordcloud创建词云。通过这些步骤，作者总结了文本挖掘的知识并鼓励读者交流讨论。

摘要由CSDN通过智能技术生成

学习了文本挖掘的相关知识，做一个关于知识和具体使用的总结，对自己做一个督促，欢迎大家交流。

1.准备语料库

import pandas as pd
import re
# 1.语料库
df = pd.read_csv('F:\\Downloads\\鬼吹灯-精绝古城.txt',sep='aaa', encoding='GBK', names=['txt'])

def is_chap_head(tmpstr):
    """判断是否是章节头部"""
    pattern = re.compile('第.{1,5}章')
    return len(pattern.findall(tmpstr))
 
df['is_chap_head'] = df.txt.apply(is_chap_head)

#添加章节标识
chapnum = 0
for i in range(len(df)):
    if df['is_chap_head'][i] == 1:
        chapnum += 1
    df.loc[i, 'chap'] = chapnum
# 删除临时变量
del df['is_chap_head']
df.head()