学习了文本挖掘的相关知识,做一个关于知识和具体使用的总结,对自己做一个督促,欢迎大家交流。
目录
1.准备语料库
import pandas as pd
import re
# 1.语料库
df = pd.read_csv('F:\\Downloads\\鬼吹灯-精绝古城.txt',sep='aaa', encoding='GBK', names=['txt'])
def is_chap_head(tmpstr):
"""判断是否是章节头部"""
pattern = re.compile('第.{1,5}章')
return len(pattern.findall(tmpstr))
df['is_chap_head'] = df.txt.apply(is_chap_head)
#添加章节标识
chapnum = 0
for i in range(len(df)):
if df['is_chap_head'][i] == 1:
chapnum += 1
df.loc[i, 'chap'] = chapnum
# 删除临时变量
del df['is_chap_head']
df.head()