【NLP基础中文处理】jieba分词初级的应用，以及统计《茅山后裔》的主要人物

本文链接：https://blog.csdn.net/weixin_43213884/article/details/117464569

导入数据

# jieba分词

import jieba # jieba中文分词
import re # 正则化表达

有这么一段文字

content = '''比较好的考研das教学视频，
英语推荐朱伟的恋恋ew有词，
政治推荐肖秀.//荣的，
高数推荐张[''。。宇的'''

word_sep = jieba.cut(content)
print(list(word_sep))

['比较', '好', '的', '考研', 'das', '教学', '视频', '，', '\n', '英语', '推荐', '朱伟', '的', '恋恋', 'ew', '有词', '，', '\n', '政治', '推荐', '肖秀', '.', '/', '/', '荣', '的', '，', '\n', '高数', '推荐', '张', '[', "'", "'", '。', '。', '宇', '的']

里面有一些干扰的字符，我们想办法处理一下

content = '''比较好的考研das教学视频，
英语推荐朱伟的恋恋ew有词，
政治推荐肖秀.//荣的，
高数推荐张[''。。宇的'''
content = re.sub(r"[\s。.''\[a-zA-Z\]，\[,/]",'',content)
word_sep = jieba.cut(content)
print(list(word_sep))

['比较', '好', '的', '考研', '教学', '视频', '英语', '推荐', '朱伟', '的', '恋恋', '有词', '政治', '推荐', '肖秀荣', '的', '高数', '推荐', '张宇', '的']

先看一个小例子

content = '小刚和小强去夜店蹦迪，遇到了小红，小红是小明的女朋友'

import jieba.posseg as posseg

for word,flag in posseg.cut(content):
    print(word,flag)

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\kingS\AppData\Local\Temp\jieba.cache
Loading model cost 0.779 seconds.
Prefix dict has been built successfully.


小刚 nr
和 c
小强 nr
去夜 t
店 n
蹦迪 v
， x
遇到 v
了 ul
小 a
红 a
， x
小红 nr
是 v
小明 nr
的 uj
女朋友 n

这里的nr表示人名，c表示连词，v表示动词

查看词性标记的含义参照：http://www.cnblogs.com/adienhsuan/p/5674033.html

for word,flag in posseg.cut(content):
    if flag == 'nr':
        print(word,flag)# 只获取人名

小刚 nr
小强 nr
小红 nr
小明 nr

这里有一本小说：《茅山后裔》

链接地址：https://www.xiaobaipan.com/file-30111359.html

import pandas as pd
content_story = pd.read_csv(r'F:\1研究生全部资料\研一\下载内容\茅山后裔.txt',error_bad_lines = False,encoding = 'gbk') 
content_story

b'Skipping line 10837: expected 2 fields, saw 4\nSkipping line 10838: expected 2 fields, saw 3\nSkipping line 10839: expected 2 fields, saw 4\nSkipping line 10840: expected 2 fields, saw 5\nSkipping line 10841: expected 2 fields, saw 4\nSkipping line 10842: expected 2 fields, saw 3\nSkipping line 10844: expected 2 fields, saw 8\nSkipping line 10846: expected 2 fields, saw 3\nSkipping line 10850: expected 2 fields, saw 5\n'

	[茅山后裔 / 大力金刚掌著 ]
黑龙小说网出品作品Txt版阅读	阅读作品更多请访问:http://www.hlj3.com
书籍介绍:	NaN
这是一本描述中国传统秘术―茅山道术的小说，故事说的是张国忠、张毅城父子运用茅山道术踏足天下的故事，从驱鬼镇邪到盗墓发冢无所不及，民间冤案、千古谜团将被一一揭开，他们的足迹甚至遍及亚欧异域，不同的文化、不同的地域、不同的信仰，中国最厉害的茅山道术，是否能一展全长？	NaN
书中没有刀光剑影的打斗，没有飞檐走壁的神功，这不是一部虚张声势的视觉大片，而是一本真正的玄幻小说，他将带你领略博大精深的茅山道术，将带你在异域神迹破解谜团，真正的思想盛宴，将从这里展开！(起点首发)	NaN
------章节内容开始-------	NaN
...	...
注解：	NaN
*句容：江苏历史名城，地处江苏南部，拥有2000余年的悠久历史，市辖道教胜地茅山（本文所述之“茅山道术”即发祥于此）、佛教圣地宝华山、有“江苏九寨沟”之称的瓦屋山等著名风景名胜。	NaN
Copyright (C) 2000-2007 http://www.hlj3.com　　All Rights Reserved	NaN
本书已获作者授权在黑龙小说网(http://www.hlj3.com)及黑龙小说网合作伙伴处进行网络连载，未经作者或黑龙小说网许可者请勿转载。	NaN
作品本身仅代表作者本人的观点，与黑龙小说网立场无关。阅读者如发现作品内容确有与法律抵触之处，可向黑龙小说网举报。　　如因而由此导致任何法律问题或后果，黑龙小说网均不负任何责任。	NaN

11891 rows × 1 columns

这里error_bad_lines = False忽略解析错误:标记数据的错误
encoding = 'gbk'因为是中文编码

当然这里也可以用上下文读取方式

with open(r'F:\1研究生全部资料\研一\下载内容\茅山后裔.txt') as f:
    content = f.read() # 读为一个字符串
figure = []
for word,flag in posseg.cut(content):
    if flag == 'nr':
        figure.append(word)

figure_forehead_20 = pd.Series(figure).value_counts()[:20]
print(figure_forehead_20)

张国忠    4062
刘      2640
秦戈     1271
东升     1206
张毅城     886
李       745
戴金双     526
艾尔讯     519
孙亭      515
老刘头     298
马真人     287
师兄      259
师傅      240
刘先生     228
国忠      221
连       206
刘丹      192
明白      188
张国义     185
秦       183
dtype: int64