python textrank,textrank关键词提取（python）

最新推荐文章于 2024-08-10 07:34:35 发布

柴犬花生酱

最新推荐文章于 2024-08-10 07:34:35 发布

阅读量2.3k

点赞数 1

文章标签： python textrank

textrank介绍

textrank是在pagerank 的基础上提出来的。PageRank对于每个网页页面都给出一个正实数，表示网页的重要程度，PageRank值越高，表示网页越重要，在互联网搜索的排序中越可能被排在前面。

pagerank具体内容请到https://www.cnblogs.com/cuiyubo/p/10175268.html

textrank正是在此基础上提出了以下方法：

1：用句子或词语代替网页

2：任意两个句子或词语的相似性等价于网页转换概率

3：相似性得分存储在一个方形矩阵中，类似于PageRank的矩阵M

算法流程如下图。

dbec1366ea8f

image.png

python实现

在这里我们使用jieba模块里面的textrank对句子进行关键词提取

停用词表在网上下载

# coding=utf-8

import jieba

import jieba.analyse

tex='本发明公开了一种永磁电机驱动的纯电动大巴车坡道起步防溜策略，即本策略当制动踏板已踩下、永磁电机转速小于设定值并持续一定时间，整车控制单元产生一个刹车触发信号，当油门踏板开度小于设定值，且档位装置为非空档时，电机控制单元产生一个防溜功能使能信号并自动进入防溜控制使永磁电机进入转速闭环控制于某个目标转速，若整车控制单元检测到制动踏板仍然踩下，则限制永磁电机输出力矩，否则，恢复永磁电机输出力矩；当整车控制单元检测到油门踏板开度大于设置值、档位装置为空档或手刹装置处于驻车位置，则退出防溜控制，同时切换到力矩控制。本策略无需更改现有车辆结构或添加辅助传感器等硬件设备，实现车辆防溜目的。'

#

jieba.analyse.set_stop_words("../data/stopWord.txt") # 加载自定义停用词表

keywords = jieba.analyse.textrank(tex, topK=10, allowPOS=('n','nz','v','vd','vn','l','a','d'))

print(keywords)

结果展示：

dbec1366ea8f

image.png

柴犬花生酱

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。