python textrank_TextRank的纯Python实现 – pytextrank

本文介绍了Python中对TextRank算法的一种纯Python实现,基于Mihalcea 2004年的论文。它修复了原始算法的错误,并进行了改进,如使用词干提取和包含动词。此外,还提供了安装依赖库和运行测试用例的步骤。
摘要由CSDN通过智能技术生成

Python impl for TextRank

一个TextRank的纯Python实现,基于Mihalcea 2004 paper。

对原始Mihalcea算法的改进包括:

修复bug;

使用词干提取而不是阻塞

包含在图表中的动词

总结中的归一化关键词排名

依赖和安装

这个代码依赖了几个其他的Python项目:

TextBlob

NetworkX

datasketch

graphviz

matlibplot

安装:

conda config --add channels https://conda.binstar.org/sloria

conda install textblob

pip install -U git+https://github.com/sloria/textblob-aptagger.git@dev

sudo python -m nltk.downloader punkt

sudo python -m nltk.downloader wordnet

sudo python -m textblob.download_corpora

pip install networkx

pip install statistics

pip install datasketch -U

pip install graphviz

pip install matplotlib

示例使用

运行基于Mihalcea paper的测试用例:

./stage1.py dat/mih.json > out1.json

./stage2.py out1.json > out2.json

测试用例结果应该为:

0.0956 types systems

0.0627 nonstrict inequations

0.0622 minimal supporting set

0.0596 mixed types

0.0571 strict inequations

0.0568 natural numbers

0.0568 minimal set

0.0545 linear diophantine equations

0.0539 linear constraints

0.0528 corresponding algorithms

0.0474 upper bounds

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值