【Hanlp2.0】探索Hanlp2.0步骤及遇到的问题汇总(最新的解决方案)

安装注意事项

1、hanlp1.x版本

#普通安装方式
pip install pyhanlp
#镜像加速安装
pip install -i https://pypi.douban.com/simple/ pyhanlp

2、安装hanlp2.x版本,本文主要介绍2.1版本的安装及遇到的问题

#普通安装方式
pip install hanlp[full] 
#镜像加速安装
pip install -i https://pypi.douban.com/simple/ hanlp
pip install -i https://pypi.douban.com/simple/ hanlp[full]
#目前网上的博客中没有看到跟我一样的解决方案,这里应该是第一个提到的
#可以使用镜像加速,如何使用镜像加速呢?
#这里安装的是hanlp2.1完全版(没找到官方的翻译,这里是我自己的翻译)
#强烈建议安装hanlp[full]而不是hanlp,否则可能后期出现一系列的问题,eg:下文的【问题1】。

使用镜像加速的教程请看我的另一篇文章:《python包的安装、更新》

问题1:hanlp加载模型失败hanlp.load(‘PKU_NAME_MERGED_SIX_MONTHS_CONVSEG’)

在加载模型进行分词的时候报错,以及还有很多问题,查看报错信息后发现应该安装hanlp[full]版本

pip install hanlp 直接安装hanlp是不够的,要安装hanlp完全版本,不然后期就会遇到各种各样的奇奇怪怪的问题,而且目前来说百度不到合适的解答,可能是因为hanlp2.0刚出来的原因吧
pip install hanlp[full]
推荐使用:
pip install -i https://pypi.douban.com/simple/ hanlp[full]

进行上述纠错之后,跑一个例子试一下效果
code

import hanlp
# 分词
tokenizer = hanlp.load('PKU_NAME_MERGED_SIX_MONTHS_CONVSEG')
print(tokenizer('商品和服务'))

效果:
在这里插入图片描述

大功告成!!

效果展示

【hanlp2.1 未挂在金融词典】
【code】

import hanlp
# 分词
tokenizer = hanlp.load('PKU_NAME_MERGED_SIX_MONTHS_CONVSEG')
word='hanlp2.0初体验,现在让我试一试还没有挂载金融词典的情况下,分割金融词汇的效果,宝康灵活配置证券投资基金。'
rs=tokenizer(word)
print(len(rs),rs)

【效果】

32 ['hanlp2.0', '初', '体验', ',', '现在', '让', '我', '试', '一', '试', '还', '没有', '挂载', '金融', '词典', '的', '情况', '下', ',', '分割', '金融', '词汇', '的', '效果', ',', '宝康', '灵活', '配置', '证券', '投资', '基金', '。']

【hanlp1.x 未挂载金融词典】

hanlp2.0初体验,现在让我试一试还没有挂载金融词典的情况下,分割金融词汇的效果,宝康灵活配置证券投资基金。
29 ['hanlp', '2.0', '初', '体验', ',', '现在', '让', '我', '试一试', '还', '没有', '挂载', '金融', '词典', '的', '情况下', ',', '分割', '金融', '词汇', '的', '效果', ',', '宝康', '灵活', '配置', '证券', '投资基金', '。']
20 ['hanlp', '2.0', '初', '体验', '现在', '试一试', '没有', '挂载', '金融', '词典', '情况下', '分割', '金融', '词汇', '效果', '宝康', '灵活', '配置', '证券', '投资基金']

可以看出这个存在于金融词典中的词“宝康灵活配置证券投资基金”没有被准确的分割。
“试一试”:在hanlp2.0中没有被准确的分割,但是在这里可以被准确的分割
【hanlp1.x 挂载金融词典】
【效果】

24 ['hanlp', '2.0', '初', '体验', ',', '现在', '让', '我', '试一试', '还', '没有', '挂载', '金融', '词典', '的', '情况下', ',', '分割', '金融词汇', '的', '效果', ',', '宝康灵活配置证券投资基金', '。']
#过滤停用词之后的效果
15 ['hanlp', '2.0', '初', '体验', '现在', '试一试', '没有', '挂载', '金融', '词典', '情况下', '分割', '金融词汇', '效果', '宝康灵活配置证券投资基金']
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值