python 使用jieba.analyse提取句子级的关键字

安装所需要的库

jieba(pip install jieba)

方法参数解释

jieba.analyse.extract_tags(sentence, topK=5, withWeight=True, allowPOS=())
参数说明 :
sentence 需要提取的字符串,必须是str类型,不能是list
topK 提取前多少个关键字
withWeight 是否返回每个关键词的权重
allowPOS是允许的提取的词性,默认为allowPOS=‘ns’, ‘n’, ‘vn’, ‘v’,提取地名、名词、动名词、动词

原理

jieba.analyse.extract_tags()提取关键字的原理是使用TF-IDF算法

在这里插入图片描述

python 实现使用jieba.analyse提取句子级的关键字

# -*- coding: utf-8 -*-
# @Time    : 2019/5/11 11:18
# @Author  : 未来战士biubiu!!
# @FileName: __init__.py.py


# python提取句子中的关键字
import jieba.analyse
import random,os

os.chdir('D:\DOCUMENT/U1\Python3_Demo\TL_NER\DATA')

f_tar = open('fenci_data_target.txt', 'r', encoding='utf-8')

data_tar = f_tar.readlines()

#随机从txt文件中提取50行
ran_tar = random.sample(data_tar, 50)

for src in ran_tar:
    src_temp = src.strip()
    print('src_temp',src_temp)
    print(jieba.analyse.extract_tags(sentence=src_temp,topK=10,allowPOS=('ns','n')))


运行结果

在这里插入图片描述
感觉效果还是不错的,我只提取了名词和地点。
文件是我一个旅游项目的数据,从中随机抽取了50行作为备选文字。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值