jieba

1.

# encoding=utf-8
import jieba
import jieba.posseg as pseg

print("\njieba分词全模式:")
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/、 ".join(seg_list))  # 全模式


strings="是广泛使用的中文分词工具,具有以下特点:"
words = pseg.cut(strings)

print("\njieba词性标注:")
for word, flag in words:
    print('%s %s' % (word, flag))

结果:

jieba分词全模式:
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.566 seconds.
Prefix dict has been built succesfully.
Full Mode: 我/、 来到/、 北京/、 清华/、 清华大学/、 华大/、 大学

jieba词性标注:
是 v
广泛 a
使用 v
的 uj
中文 nz
分词 n
工具 n
, x
具有 v
以下 f
特点 n
: x

2.

# -*- coding: utf-8 -*-
import jieba.analyse as analyse
#f = open('text.txt',mode='r',encoding='utf-8')
lines="恶性肿瘤的分期越高,患者预后越差。通过对肿瘤不同恶性程度的划分,TNM分期在预测预后方面不断完善。"
for i in analyse.extract_tags(lines, topK=20, withWeight=True, allowPOS=(['ns', 'n', 'vn', 'v','nr'])):
    print (i)
#analyse.textrank(lines, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'
print ("  ".join(analyse.textrank(lines, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v','nr'))))

import jieba.posseg as pseg
words = pseg.cut("我爱自然语言处理")
for word, flag in words:
    print('%s %s' % (word, flag))

结果:('分期', 1.9490619860111111)
('恶性', 0.9609338026588888)
('肿瘤', 0.8611194315033334)
('划分', 0.7362442325777778)
('患者', 0.7053239519733334)
('预测', 0.6613265774622222)
('程度', 0.5738165478488889)
('方面', 0.47367896445666663)
分期  程度  划分  恶性  预测  方面  肿瘤  患者
我 r
爱 v
自然语言 l
处理 v

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值