jieba分词

因为最近的项目的需求,要使用到jieba分词,所以就简单的分享一下

对的jieba几个模式的使用:

接下来是简单的操作

# 导入包
import jieba

#管理系统路径
import sys
sys.path.append("../")

# 获取自定义词典
jieba.load_userdict('data/duanxin/userdict.txt')

#导入词性标注的包
import jieba.posseg as pseg

#添加词
jieba.add_word('行窃预兆')
jieba.add_word('气定神闲')

# 删除词
jieba.del_word('hello')

#元组类型的测试数据
test_sent=(
"和深度和等候爱的诶哟广大撒好的坏读书的机会;谁都会厚度啊的哈"
"萨哈帝国画分镜给福建省覅 是否会旁边将发射光谱上方式烧饭"
"[和咯哦安静 ]很烦粉红色会苏粉丝发挥示范是否会四、是服饰"
)

# 默认分词
words=jieba.cut(test_sent)
print('/'.join(words))

print('*'*40)

#用于词性标注
result=pseg.cut(test_sent)

#使用for 循环把分出的词及其词性用/隔开 并添加空格
for w in result:
    print(w.word,'/',w.flag,',',end=' ')
print('\n'+'*'*40)

# 对英文的分割
terms=jieba.cut('dha adh d hdsahda adshjah')
print('/'.join(terms))

#对英文和汉字的分割
terms=jieba.cut('usdiaiu的埃胡德啊哈的')
print('/'.join(terms))

print('*'*40)

 

因为项目需求不高,所以简单的操作已经可以实现需求了,如果大家感兴趣的话可以去看看这篇文章,希望能帮助各位~

  • 8
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值