TextRank4ZH 用于自动从中文文本中提取关键词和摘要,基于 TextRank 算法,使用 Python 编写。
TextRank 算法可以用来从文本中提取关键词和摘要(重要的句子)。TextRank4ZH是针对中文文本的TextRank算法的python算法实现。
安装
本程序使用python 2.7测试没有问题,暂时不兼容python 3。
先确定已经有jieba、numpy、networkx这三个库。可以使用pip安装:
$ sudo pip install numpy$ sudo pip install jieba$ sudo pip install networkx
关于库版本,以下作为参考:
$ pip show jieba---Name: jiebaVersion: 0.35Location: /usr/local/lib/python2.7/dist-packagesRequires: $ pip show numpy---Name: numpyVersion: 1.7.1Location: /usr/lib/python2.7/dist-packagesRequires: $ pip show networkx---Name: networkxVersion: 1.9.1Location: /usr/local/lib/python2.7/dist-packagesRequires: decorator
另外,请确保安装最新版本的jieba分词,TextRank4ZH需要新版本jieba提供的词性标注功能。
$ sudo pip install jieba --upgrade
TextRank4ZH暂不支持使用easy_install、pip来安装,使用者可以将textrank4zh拷贝到项目目录,或者环境变量PYTHONPATH指向的目录中。
<