python 使用jieba.analyse提取句子级的关键字

hzp666

于 2022-11-24 10:20:31 发布

阅读量1.5k

点赞数 1

分类专栏： python 文章标签： python 深度学习开发语言 jieba

原文链接：https://cn.bing.com/search?q=jieba.analyse&PC=U316&FORM=CHROMN

版权

python 专栏收录该内容

200 篇文章 8 订阅

订阅专栏

安装所需要的库

jieba(pip install jieba)

方法参数解释

jieba.analyse.extract_tags(sentence, topK=5, withWeight=True, allowPOS=())
参数说明：
sentence 需要提取的字符串，必须是str类型，不能是list
topK 提取前多少个关键字
withWeight 是否返回每个关键词的权重
allowPOS是允许的提取的词性，默认为allowPOS=‘ns’, ‘n’, ‘vn’, ‘v’，提取地名、名词、动名词、动词

原理

jieba.analyse.extract_tags()提取关键字的原理是使用TF-IDF算法

在这里插入图片描述

python 实现使用jieba.analyse提取句子级的关键字

# -*- coding: utf-8 -*-
# @Time    : 2019/5/11 11:18
# @Author  : 未来战士biubiu！！
# @FileName: __init__.py.py


# python提取句子中的关键字
import jieba.analyse
import random,os

os.chdir('D:\DOCUMENT/U1\Python3_Demo\TL_NER\DATA')

f_tar = open('fenci_data_target.txt', 'r', encoding='utf-8')

data_tar = f_tar.readlines()

#随机从txt文件中提取50行
ran_tar = random.sample(data_tar, 50)

for src in ran_tar:
    src_temp = src.strip()
    print('src_temp',src_temp)
    print(jieba.analyse.extract_tags(sentence=src_temp,topK=10,allowPOS=('ns','n')))

运行结果

在这里插入图片描述
感觉效果还是不错的，我只提取了名词和地点。
文件是我一个旅游项目的数据，从中随机抽取了50行作为备选文字。

hzp666

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python 使用jieba.analyse提取句子级的关键字

allowPOS是允许的提取的词性，默认为allowPOS=‘ns’, ‘n’, ‘vn’, ‘v’，提取地名、名词、动名词、动词。jieba.analyse.extract_tags()提取关键字的原理是使用TF-IDF算法。文件是我一个旅游项目的数据，从中随机抽取了50行作为备选文字。withWeight 是否返回每个关键词的权重。感觉效果还是不错的，我只提取了名词和地点。，必须是str类型，不能是list。sentence 需要提取的。topK 提取前多少个关键字。
复制链接

扫一扫

专栏目录