BertTokenizer在处理中英文混合序列中遇到的问题

最新推荐文章于 2024-08-10 09:38:33 发布

风吹草地现牛羊的马

最新推荐文章于 2024-08-10 09:38:33 发布

阅读量2.5k

点赞数 3

分类专栏： pytorch 信息抽取文章标签： pytorch 自然语言处理 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mch2869253130/article/details/121401991

版权

pytorch 同时被 2 个专栏收录

38 篇文章 3 订阅

订阅专栏

3 篇文章 2 订阅

订阅专栏

直接上代码：

from transformers import BertTokenizer

path = '../PTM/bert-base-zh'

tokenizer = BertTokenizer.from_pretrained(path)

text_1 = '①Goodpasture综合征'
text_2 = '1Goodpasture综合征'
text_3 = '@Goodpasture综合征'
text_4 = 'Goodpasture综合征'

print(tokenizer.tokenize(text_1))
print(tokenizer.tokenize(text_2))
print(tokenizer.tokenize(text_3))
print(tokenizer.tokenize(text_4))

'''
['①', '##go', '##od', '##pa', '##st', '##ure', '综', '合', '征']
['1g', '##ood', '##pa', '##st', '##ure', '综', '合', '征']
['@', 'good', '##pa', '##st', '##ure', '综', '合', '征']
['good', '##pa', '##st', '##ure', '综', '合', '征']
'''

如果在中英文混合的字符序列中，英文前面出现了特殊字符，或者数字，berttokenizer会把特殊字符和英文字符看成一个整体切分，导致切分错误。

可以解决的办法是将特殊字符或者数字替换为berttokenizer容易识别的字符，比如’@’, ‘#’, '$'等。

应用场景：
在中文电子病历中，text_1和text_2的场景是很容易出现的，所以在文本输入模型之前，最好先对这样的情况进行预处理。

风吹草地现牛羊的马

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

风吹草地现牛羊的马 CSDN认证博客专家 CSDN认证企业博客

码龄8年

378: 原创

3万+: 周排名

6954: 总排名

75万+: 访问

: 等级

9450: 积分

233: 粉丝

780: 获赞

169: 评论

2491: 收藏

私信

关注

分类专栏

pytorch 38篇
信息抽取 3篇
生成模型 5篇
变分贝叶斯系列 22篇
语言模型 13篇
知识图谱 2篇
主题模型（topic model） 11篇
环境配置 5篇
优化算法 3篇
GCN 3篇
web开发 1篇
ACM 117篇
机器学习 97篇
tensorflow 35篇
CNN 10篇
python 27篇
CSDN
LSTM 5篇
RNN 6篇
Linux 15篇
NLP 42篇

最新评论

pytorch 计算图
m0_56066451: 写错了一部分内容
变分自编码器ELBO的求解---随机梯度变分估计（SGVB）
0.409431: 请问一下这里的参考文献是哪里的，为什么二者KL散度那边理论上应该是上式第一项的期望计算，怎么变成了一个积分，同时这个积分也和前面公式能够推导到的不一样？
GMVAE（GAUSSIAN MIXTURE VARIATIONAL AUTOENCODERS）高斯混合变分自编码器公式推导
qq_33790832: 这个是哪篇论文的？
自动文摘评测方法：Rouge-1、Rouge-2、Rouge-L、Rouge-S
花夫人rho: 引用「the cat was found under the bed」确定没算错吗？人工标注为： “ the tiny little cat was found under the big funny bed” 机器预测为：the cat was found under the bed。则Rec=机器预测正确数/人工标注数=7/11。而你写成了精确度是7/11。 prec=机器预测正确数/机器输出有标签总数=7/7=1。
nn.TransformerEncoderLayer中的src_mask，src_key_padding_mask解析
#苦行僧: 说的并不对

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。