导入数据
# jieba分词
import jieba # jieba中文分词
import re # 正则化表达
有这么一段文字
content = '''比较好的考研das教学视频,
英语推荐朱伟的恋恋ew有词,
政治推荐肖秀.//荣的,
高数推荐张[''。。宇的'''
word_sep = jieba.cut(content)
print(list(word_sep))
['比较', '好', '的', '考研', 'das', '教学', '视频', ',', '\n', '英语', '推荐', '朱伟', '的', '恋恋', 'ew', '有词', ',', '\n', '政治', '推荐', '肖秀', '.', '/', '/', '荣', '的', ',', '\n', '高数', '推荐', '张', '[', "'", "'", '。', '。', '宇', '的']
里面有一些干扰的字符,我们想办法处理一下
content = '''比较好的考研das教学视频,
英语推荐朱伟的恋恋ew有词,
政治推荐肖秀.//荣的,
高数推荐张[''。。宇的'''
content = re.sub(r"[\s。.''\[a-zA-Z\],\[,/]",'',content)
word_sep = jieba.cut(content)
print(list(word_sep))
['比较', '好', '的', '考研', '教学', '视频', '英语', '推荐', '朱伟', '的', '恋恋', '有词', '政治', '推荐', '肖秀荣', '的', '高数', '推荐', '张宇', '的']
先看一个小例子
content = '小刚和小强去夜店蹦迪,遇到了小红,小红是小明的女朋友'
import jieba.posseg as posseg
for word,flag in posseg.cut(content):
print(word,flag)
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\kingS\AppData\Local\Temp\jieba.cache
Loading model cost 0.779 seconds.
Prefix dict has been built successfully.
小刚 nr
和 c
小强 nr
去夜 t
店 n
蹦迪 v
, x
遇到 v
了 ul
小 a
红 a
, x
小红 nr
是 v
小明 nr
的 uj
女朋友 n
这里的nr表示人名,c表示连词,v表示动词
查看词性标记的含义参照:http://www.cnblogs.com/adienhsuan/p/5674033.html
for word,flag in posseg.cut(content):
if flag == 'nr':
print(word,flag)# 只获取人名
小刚 nr
小强 nr
小红 nr
小明 nr
这里有一本小说:《茅山后裔》
链接地址:https://www.xiaobaipan.com/file-30111359.html
import pandas as pd
content_story = pd.read_csv(r'F:\1研究生全部资料\研一\下载内容\茅山后裔.txt',error_bad_lines = False,encoding = 'gbk')
content_story
b'Skipping line 10837: expected 2 fields, saw 4\nSkipping line 10838: expected 2 fields, saw 3\nSkipping line 10839: expected 2 fields, saw 4\nSkipping line 10840: expected 2 fields, saw 5\nSkipping line 10841: expected 2 fields, saw 4\nSkipping line 10842: expected 2 fields, saw 3\nSkipping line 10844: expected 2 fields, saw 8\nSkipping line 10846: expected 2 fields, saw 3\nSkipping line 10850: expected 2 fields, saw 5\n'
[茅山后裔 / 大力金刚掌 著 ] | |
---|---|
黑龙小说网 出品作品Txt版阅读 | 阅读作品更多请访问:http://www.hlj3.com |
书籍介绍: | NaN |
这是一本描述中国传统秘术―茅山道术的小说,故事说的是张国忠、张毅城父子运用茅山道术踏足天下的故事,从驱鬼镇邪到盗墓发冢无所不及,民间冤案、千古谜团将被一一揭开,他们的足迹甚至遍及亚欧异域,不同的文化、不同的地域、不同的信仰,中国最厉害的茅山道术,是否能一展全长? | NaN |
书中没有刀光剑影的打斗,没有飞檐走壁的神功,这不是一部虚张声势的视觉大片,而是一本真正的玄幻小说,他将带你领略博大精深的茅山道术,将带你在异域神迹破解谜团,真正的思想盛宴,将从这里展开!(起点首发) | NaN |
------章节内容开始------- | NaN |
... | ... |
注解: | NaN |
*句容:江苏历史名城,地处江苏南部,拥有2000余年的悠久历史,市辖道教胜地茅山(本文所述之“茅山道术”即发祥于此)、佛教圣地宝华山、有“江苏九寨沟”之称的瓦屋山等著名风景名胜。 | NaN |
Copyright (C) 2000-2007 http://www.hlj3.com All Rights Reserved | NaN |
本书已获作者授权在黑龙小说网(http://www.hlj3.com)及黑龙小说网合作伙伴处进行网络连载,未经作者或黑龙小说网许可者请勿转载。 | NaN |
作品本身仅代表作者本人的观点,与黑龙小说网立场无关。阅读者如发现作品内容确有与法律抵触之处,可向黑龙小说网举报。 如因而由此导致任何法律问题或后果,黑龙小说网均不负任何责任。 | NaN |
11891 rows × 1 columns
这里error_bad_lines = False
忽略解析错误:标记数据的错误
encoding = 'gbk'
因为是中文编码
当然这里也可以用上下文读取方式
with open(r'F:\1研究生全部资料\研一\下载内容\茅山后裔.txt') as f:
content = f.read() # 读为一个字符串
figure = []
for word,flag in posseg.cut(content):
if flag == 'nr':
figure.append(word)
figure_forehead_20 = pd.Series(figure).value_counts()[:20]
print(figure_forehead_20)
张国忠 4062
刘 2640
秦戈 1271
东升 1206
张毅城 886
李 745
戴金双 526
艾尔讯 519
孙亭 515
老刘头 298
马真人 287
师兄 259
师傅 240
刘先生 228
国忠 221
连 206
刘丹 192
明白 188
张国义 185
秦 183
dtype: int64