【NLP基础中文处理】jieba分词初级的应用,以及统计《茅山后裔》的主要人物

导入数据

# jieba分词
import jieba # jieba中文分词
import re # 正则化表达

有这么一段文字

content = '''比较好的考研das教学视频,
英语推荐朱伟的恋恋ew有词,
政治推荐肖秀.//荣的,
高数推荐张[''。。宇的'''
word_sep = jieba.cut(content)
print(list(word_sep))
['比较', '好', '的', '考研', 'das', '教学', '视频', ',', '\n', '英语', '推荐', '朱伟', '的', '恋恋', 'ew', '有词', ',', '\n', '政治', '推荐', '肖秀', '.', '/', '/', '荣', '的', ',', '\n', '高数', '推荐', '张', '[', "'", "'", '。', '。', '宇', '的']

里面有一些干扰的字符,我们想办法处理一下

content = '''比较好的考研das教学视频,
英语推荐朱伟的恋恋ew有词,
政治推荐肖秀.//荣的,
高数推荐张[''。。宇的'''
content = re.sub(r"[\s。.''\[a-zA-Z\],\[,/]",'',content)
word_sep = jieba.cut(content)
print(list(word_sep))
['比较', '好', '的', '考研', '教学', '视频', '英语', '推荐', '朱伟', '的', '恋恋', '有词', '政治', '推荐', '肖秀荣', '的', '高数', '推荐', '张宇', '的']

先看一个小例子

content = '小刚和小强去夜店蹦迪,遇到了小红,小红是小明的女朋友'
import jieba.posseg as posseg
for word,flag in posseg.cut(content):
    print(word,flag)
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\kingS\AppData\Local\Temp\jieba.cache
Loading model cost 0.779 seconds.
Prefix dict has been built successfully.


小刚 nr
和 c
小强 nr
去夜 t
店 n
蹦迪 v
, x
遇到 v
了 ul
小 a
红 a
, x
小红 nr
是 v
小明 nr
的 uj
女朋友 n

这里的nr表示人名,c表示连词,v表示动词

查看词性标记的含义参照:http://www.cnblogs.com/adienhsuan/p/5674033.html

for word,flag in posseg.cut(content):
    if flag == 'nr':
        print(word,flag)# 只获取人名
    
小刚 nr
小强 nr
小红 nr
小明 nr

这里有一本小说:《茅山后裔》

链接地址:https://www.xiaobaipan.com/file-30111359.html

import pandas as pd
content_story = pd.read_csv(r'F:\1研究生全部资料\研一\下载内容\茅山后裔.txt',error_bad_lines = False,encoding = 'gbk') 
content_story
b'Skipping line 10837: expected 2 fields, saw 4\nSkipping line 10838: expected 2 fields, saw 3\nSkipping line 10839: expected 2 fields, saw 4\nSkipping line 10840: expected 2 fields, saw 5\nSkipping line 10841: expected 2 fields, saw 4\nSkipping line 10842: expected 2 fields, saw 3\nSkipping line 10844: expected 2 fields, saw 8\nSkipping line 10846: expected 2 fields, saw 3\nSkipping line 10850: expected 2 fields, saw 5\n'
[茅山后裔 / 大力金刚掌 著 ]
黑龙小说网 出品作品Txt版阅读阅读作品更多请访问:http://www.hlj3.com
书籍介绍:NaN
这是一本描述中国传统秘术―茅山道术的小说,故事说的是张国忠、张毅城父子运用茅山道术踏足天下的故事,从驱鬼镇邪到盗墓发冢无所不及,民间冤案、千古谜团将被一一揭开,他们的足迹甚至遍及亚欧异域,不同的文化、不同的地域、不同的信仰,中国最厉害的茅山道术,是否能一展全长?NaN
书中没有刀光剑影的打斗,没有飞檐走壁的神功,这不是一部虚张声势的视觉大片,而是一本真正的玄幻小说,他将带你领略博大精深的茅山道术,将带你在异域神迹破解谜团,真正的思想盛宴,将从这里展开!(起点首发)NaN
------章节内容开始-------NaN
......
注解:NaN
*句容:江苏历史名城,地处江苏南部,拥有2000余年的悠久历史,市辖道教胜地茅山(本文所述之“茅山道术”即发祥于此)、佛教圣地宝华山、有“江苏九寨沟”之称的瓦屋山等著名风景名胜。NaN
Copyright (C) 2000-2007 http://www.hlj3.com  All Rights ReservedNaN
本书已获作者授权在黑龙小说网(http://www.hlj3.com)及黑龙小说网合作伙伴处进行网络连载,未经作者或黑龙小说网许可者请勿转载。NaN
作品本身仅代表作者本人的观点,与黑龙小说网立场无关。阅读者如发现作品内容确有与法律抵触之处,可向黑龙小说网举报。  如因而由此导致任何法律问题或后果,黑龙小说网均不负任何责任。NaN

11891 rows × 1 columns

这里error_bad_lines = False忽略解析错误:标记数据的错误
encoding = 'gbk'因为是中文编码

当然这里也可以用上下文读取方式

with open(r'F:\1研究生全部资料\研一\下载内容\茅山后裔.txt') as f:
    content = f.read() # 读为一个字符串
figure = []
for word,flag in posseg.cut(content):
    if flag == 'nr':
        figure.append(word)

figure_forehead_20 = pd.Series(figure).value_counts()[:20]
print(figure_forehead_20)
张国忠    4062
刘      2640
秦戈     1271
东升     1206
张毅城     886
李       745
戴金双     526
艾尔讯     519
孙亭      515
老刘头     298
马真人     287
师兄      259
师傅      240
刘先生     228
国忠      221
连       206
刘丹      192
明白      188
张国义     185
秦       183
dtype: int64

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wency(王斯-CUEB)

我不是要饭的

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值