知识图谱

一、获取关键词

#基于nltk获取关键字(针对英文)
from rake_nltk import Rake
r = Rake()
#mytext = 'Hello evryone , my name is wyz.Nice to meet you'
mytext = '海南拟建国际自贸区和自贸港。对此,多家公司回应在海南业务情况。基金君整理如下:欣龙控股:在海南老城经济开发区拥有的近1000亩土地证载尚为工业用地。在联营企业欣龙丰裕实业名下的173亩土地为商住用地;东华软件:2014与海南省政府战略合作起,开始布局海南大数据和大健康产业,下个5年将加大投入迅速形成产出能力;安通控股:去年在海口港吞吐量已突破100万标箱;安控科技称,正努力借助海南当地优惠政策积极拓展业务。海南瑞泽:2018年恰逢海南省建省办特区30周年庆典,作为国际旅游岛,海南省必将迎来新一轮发展机遇,为率先抢占国际旅游岛稀缺资源,布局旅游文化产业,协议双方决定整合双方区域及产业优势,在海南省共同投资现代马产业文化旅游综合项目。'
r.extract_keywords_from_text(mytext)
print(r.get_ranked_phrases())

二、jieba 分词,提取关键词

提取关键词有两种方法:

import jieba.analyse
基于TF-IDF:jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
基于TextRank:jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

基于 TF-IDF 算法的关键词抽取 
     jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 
     参数解释: 
       (1)sentence :待提取的文本; 
       (2)topK :返回K个权重最大的关键词 
       (3)withWeight :是否返回权重 
       (4)allowPOS :是否仅包括指定词性的词

  基于 TextRank 算法的关键词抽取 
     jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 
     参数解释: 
       (1)sentence :待提取的文本; 
       (2)topK :返回K个权重最大的关键词 
       (3)withWeight :是否返回权重 
       (4)allowPOS :是否仅包括指定词性的词 
     TextRank基本思想: 
       (1)分词 
       (2)找词之间共现关系,构建图 
       (3)计算图中节点的PageRank
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值