Python数据分析——文本挖掘

分词,用jiaba

# 分词
import jieba
doc = '我喜欢上海东方明珠'
# 全模式;精准模式;搜索引擎模式
w1 = jieba.cut(doc,cut_all=False) # 参数1:数据  参数2:模式 有三种模式,这里使用了精准模式
for item in w1:
    print(item)

运行结果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\pc\AppData\Local\Temp\jieba.cache
我
喜欢
上海
东方明珠
Loading model cost 0.752 seconds.
Prefix dict has been built succesfully.

获取词语的词性

import jieba.posseg
doc = '我喜欢上海东方明珠'
w2 = jieba.posseg.cut(doc)
# flag词性
# word词语
for item in w2:
    print(item.flag)

运行结果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\pc\AppData\Local\Temp\jieba.cache
Loading model cost 0.745 seconds.
Prefix dict has been built succesfully.
r
v
ns
nr

a:形容词

c:连词

d:副词

e:叹词

f:方位词

i:成语

m:数词

n:名词

nr:人名

ns:地名

nt:机构团体

nz:其他专有名词

p:介词

r:代词

t:时间

u:助词

v:动词

vn:动名词

w:标点符号

un:未知词语

词典的加载

jieba.load_userdict('文件名')

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

General_单刀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值