jieba分词运用实例

最新推荐文章于 2024-08-17 22:27:44 发布

黎雨毫

最新推荐文章于 2024-08-17 22:27:44 发布

阅读量1.9k

点赞数 2

分类专栏： # 代码层文章标签：自然语言处理数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/realliyuhao/article/details/104095087

版权

代码层专栏收录该内容

4 篇文章 0 订阅

订阅专栏

用jieba抓取网络小说中的关键词

挑选了这么几本: 当年看过的小说
哈哈,因为我比较懒,就只下载了这几本小说,又因为我现在很菜,所以没有用爬虫.

import os
import jieba.analyse as analyse
import time
#这里是一个计时功能的实现
begin=time.time()
#这里是网络小说所在的父目录
fatherdir="D:/Project44/网络小说"
#获得所有书名组成的list,一个个打太麻烦了
booklist =os.listdir(fatherdir)
#这个文档存放关键词的结果
resultFile=open("D:/Project44/关键词结果.txt","w")
#这里限定了抓取的关键词的词性,但是结果其实聊胜于无
kwordkind=('vd','vf','vx' ,'vi' ,'vl','vg','ad','ag','al' )
for book in booklist:
    bookcontent=open(fatherdir+"/"+book,"r",encoding="utf-8").read()
    #抓取关键词有两个方法,但是那个textrank方法总是报错
    kwordstr = ",".join(analyse.extract_tags(bookcontent,topK=150,allowPOS=()))
    #这里的代码是最后一版的,抓得最多
    resultFile.write(book+"的前150个关键词为:"+"\n"+kwordstr+'\n\n')
end=time.time()
span=round(end-begin,2)
resultFile.write("共用时"+str(span)+"秒"+"\n")
resultFile.close()

下面上结果:
最后一遍(有几本小说出现了编码问题,我就把他们删了,但是以前的版本可能还能看,大家可以看底下的纠结过)
在这里插入图片描述
第三版(100个关键词):

可见,从出现次数比较多的关键词中是可以对小说内容有一个初步认识的,比如作者的文风,小说的主题,小说的主角(包括女主角甚至男配角).

综上,本程序的可改进空间还是很大的:
用爬虫替代下载,编码问题来几个try catch,真.词性筛选等等

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄5年

75
原创

130
点赞

508
收藏

134
粉丝

关注

私信

热门文章

分类专栏

最新评论

C++简易画板----Qt实现
XRHS.: 你好楼主可以再发一下吗
tensorflow的Session机制及run()函数
qq_37248702: 这是讲了个啥，还这么高的热度
一文解决python的GUI--python程序员必会GUI库-神器PySimpleGUI良心总结
落月丶: 大佬，占位也解决不了啊，想要在执行前默认值创建，点击创建时先update一个值创建中，执行代码处理结束，然后在update到执行结束，每次执行，只有最后一步执行了，用了你说的占位，也没解决，还有需要哪里注意呢？
一文解决python的GUI--python程序员必会GUI库-神器PySimpleGUI良心总结
戈壁滩上的流沙: 行百里者半九十。你只是写了一些函数，没有调用。写软件不写测试码，在国内不鲜见。前些日子给家人买了M720，给自己买了国产蓝牙鼠标，好吗它待机后多半不能复原，要把电池取出-没开关的，也是行百里者半九十。
一文解决python的GUI--python程序员必会GUI库-神器PySimpleGUI良心总结
WJY935: 我想问一下，有办法就是界面一个按钮去启动控制我代码中其他的函数吗，要怎么做

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。