自然语言处理---------jieba调整词频与词性标注

在这里插入图片描述 🍖🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖 🍖🍖🍖🍖
🍖🍖
🍖🍖🍖
🍖🍖🍖🍖 作者 : 不良使
🍖🍖🍖🍖🍖 潜力创作新星 华为云享专家
🍖🍖🍖🍖🍖🍖 博客记录学习的思路,项目和错误,寻找志同道合的朋友
🍖🍖🍖🍖🍖🍖🍖 如果觉得有帮助记得一键三连 ┗|`O′|┛ 嗷~~
🍖🍖🍖🍖🍖🍖🍖🍖

🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖🍖🍖🍖🍖🍖🍖 🍖🍖

有些句子中出现了一些词语,但是被分开为两个单独的字,虽然这样可以调整词库,只需要重新加载自定义的词库即可,除此之外我们还可以用 ”调整词频来解决这个问题”

import jieba
import jieba.posseg as pg  # 词性标注的包

# 加载自定义字典
jieba.load_userdict("./data/user_dic.txt")
# 添加词
jieba.add_word("石墨烯")
jieba.add_word("凯特琳")
# 删除词
jieba.del_word("自定义词")
# 元组类型测试数据
test_sent = (
    "李小福是创新办主任也是云计算方面专家;什么是八一双鹿\n"
    "例如我输入一个带“韩玉鉴赏”的标题,在自定义词库中也增加了此词为N类\n"
    "[台中]报道指出,mac上可分为[石墨烯];此时又可以分出来凯特琳了。\n"
    "物联网"
)
words = jieba.cut(test_sent)
print("使用/把分词结果分开:       " + "/".join(words))
print("++" * 120)
# 用于此行词性标注
result = pg.cut(test_sent)
# 使用for循环把分出的词及其词性用/分开,并添加,和空格
for x in result:
    print(x.word, "/", x.flag, ",", end=' ')
print("\n")
print("++" * 120)

# 对英文进行分割
terms = jieba.cut("How to easy_install jieba library")
print("/".join(terms))
#对英文和汉字进行分割
terms_1=jieba.cut("python 是一门很好的语言")
print("/".join(terms_1))
print("++" * 120)
#测试词频
test_terms=[
    ("我们中出了一个叛徒",('中','出'))
            ]
for sent ,seg in test_terms:
    print("/".join(jieba.cut(sent,HMM=False)))
    words=''.join(seg)
    print('%s Before :%s ,After :%s'%(words,jieba.get_FREQ(words),jieba.suggest_freq(words,True)))
    print('/'.join(jieba.cut(sent,HMM=False)))

在这里插入图片描述
代码来源于B站,侵权请联系删除

  • 31
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 37
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 37
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不良使

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值