中文分词jieba python 学习

中文分词工具,结巴分词很好用,以下是验证小结。

import jieba
import jieba.analyse
import jieba.posseg as pseg
import time

filename='tianlongbabu.txt'

def file_jieba_wordcout(filename):
    file=open(filename,'r').read()
    file=jieba.cut(file)
    dict={}
    for word in file:
        if word in dict:
            dict[word]+=1
        else:
            dict[word]=1
    file.close()
    return dict

def print_top100(filename):
    words=file_jieba_wordcout(filename)
    dict1=sorted(words.items(),key=lambda item:item[1], reverse = True)
    for item in dict1[:100]:
        print(item[0],item[1])

# wordcout 前100 次
# print_top100(filename)

#基于 TF-IDF 算法的关键词抽取
# TFIDF_result=jieba.analyse.extract_tags(open(filename,'rU').read(), topK=100, withWeight=False, allowPOS=())
# print(TFIDF_result)

# 基于 TextRank 算法的关键词抽取
TextRank_result=jieba.analyse.textrank(open(filename,'rU').read(), topK=100, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
print(TextRank_result)
#词性标注

print_top100(filename) 通过结果看出,单纯top100结果包括了,空等无意义的停止词。

, 87017, 62909,。 27480,的 17698,“ 16965,” 16894,: 15125,了 14420,是 9740,我 9553,你 9429,他 8770,道 8408,? 7084,在 5547,也 5088,… 5033,这 4613,那 4093,不 3790,便 3657,又 3358,、 3264,说 3261,她 3230,! 3228,得 3142,人 2845,有 2797,去 2766,来 2430,将 2427,却 2242,都 2215,上 2162,中 2088,要 2072,但 2042,和 2037,说道 2016,到 2007,一 1959,着 1889,段誉 1881,向 1834,听 1774,之 1624,自己 1576,已 1534,只 1518,叫 1502,虚竹 1467,一个 1383,见 1368,好 1333,给 1330,‘ 1321,’ 1319,什么 1265,萧峰 1231,大 1217,而 1147,下 1110,想 1099,不是 1050,再 1025,为 1020,武功 1020,等 1019,就 1018,对 1003,甚么 997,过 996,么 945,跟 934,还 928,没 928,一声 878,瞧 833,乔峰 832,可 832,从 824,王语嫣 814,谁 799,段 795,咱们 782,杀 782,慕容复 781,不知 763,与 754,师父 750,心中 746,走 743,个 742,出 740,无 718,以 718,知道 709,段正淳 706,出来 706,

基于 TF-IDF 算法的关键词抽取。可以看出当前天龙八部的词频比较高的词语。可以看出主角有哪些。

段誉、虚竹、乔峰、

['段誉', '虚竹', '萧峰', '乔峰', '慕容复', '说道', '王语嫣', '武功', '段正淳', '木婉清', '丐帮', '甚么', '鸠摩智', '游坦之', '阿朱', '自己', '师父', '内力', '丁春秋', '大理', '包不同', '一声', '什么', '阿紫', '帮主', '星宿', '心下', '少林', '咱们', '不是', '鳄神', '心中', '便是', '一个', '童姥', '不知', '姑娘', '弟子', '契丹', '爹爹', '南海', '乌老大', '心想', '段延庆', '之中', '只见', '钟灵', '少林寺', '如何', '倘若', '突然', '出来', '见到', '当真', '登时', '身子', '众人', '如此', '功夫', '段公子', '知道', '云中鹤', '保定', '不敢', '声音', '伸手', '少女', '脸上', '西夏', '女子', '当下', '慕容公子', '性命', '穴道', '两人', '钟万仇', '巴天石', '左手', '眼见', '风波恶', '和尚', '耶律洪基', '只是', '当即', '跟着', '叶二娘', '之极', '方丈', '姊姊', '马夫人', '阿紫道', '不能', '二人', '只觉', '师兄', '王姑娘', '之下', '原来', '喝道', '这般']
TF-IDF 看看金瓶梅结果

['西门庆', '月娘', '妇人', '李瓶儿', '金莲', '伯爵', '银子', '说道', '春梅', '两个', '甚么', '后边', '那里', '敬济', '玳安', '淫妇', '明日', '一面', '小厮', '出来', '老爹', '潘金莲', '房里', '今日', '打发', '娘子', '来家', '妗子', '陈敬济', '大姐', '只见', '娇儿', '大舅', '屋里', '房中', '吴月娘', '吃酒', '吩咐', '这里', '不知', '玉楼', '一个', '因问', '桂姐', '只顾', '姐姐', '孟玉楼', '一日', '于是', '起身', '老婆', '起来', '大娘', '正是', '众人', '一回', '玳安道', '薛嫂', '丫头', '如今', '门首', '老人家', '书童', '奴才', '伙计', '迎春', '琴童', '晚夕', '在家', '家中', '进来', '连忙', '姑子', '姐夫', '就是', '五娘', '武松', '衣服', '罢了', '那话', '婆子', '一时', '守备', '来旺儿', '武大', '吴银儿', '大官人', '前边', '童儿', '春梅道', '韩道国', '人家', '王六儿', '敬济道', '知道', '儿来', '玉箫', '那日', '平安', '亲家']

基于 TextRank 算法的关键词抽取结果。

虚竹关联性竟然最大

['说道', '虚竹', '只见', '便是', '不知', '师父', '丐帮', '大理', '弟子', '不能', '出来', '内力', '南海', '知道', '姑娘', '少林', '众人', '契丹', '星宿', '见到', '跟着', '身子', '鳄神', '心想', '声音'

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值