从大量文本中提取有用的关键信息是数据分析的一个重要环节。
Python 作为一门广泛应用于数据分析领域的编程语言,有着强大的文本处理库。
整理了几个用于文本关键词提取的优秀工具,一起学习下。
1、jieba库
jieba 是一个中文分词库,可以将一段文本分割为单独的单词。可以使用 jieba 库来提取中文文本的关键词。
1.安装
使用pip安装:
pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
这里使用清华大学的源地址
2. 示例代码
import jieba.analyse
text = "Python 是一个非常优秀的语言,它可以用于 Web 开发,人工智能,数据分析等领域。"
# 抽取5个关键词
keywords = jieba.analyse.extract_tags(text, topK=15)
print(keywords)
输出: