Python字符统一标准化

最新推荐文章于 2024-05-05 21:16:48 发布

Luban250

最新推荐文章于 2024-05-05 21:16:48 发布

阅读量641

点赞数

分类专栏： python 自然语言处理文章标签：字符编码统一 Python字符编码统一字符编码字符串标准化 Python字符串标准化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huludan/article/details/108725245

版权

python 同时被 2 个专栏收录

79 篇文章 2 订阅

订阅专栏

自然语言处理

26 篇文章 1 订阅

订阅专栏

问题

在Python 3.X环境下使用Hugging Face中Bert模型获取词向量时，发现tokenizer的分词结果出现乱码，如下：

# 这是直接在交互式命令行执行的结果

tokenizer.tokenize("anti - spam suit")

Out[3]: ['anti', '-', 'spa', '##m', 'suit']

转念一想，spam这样一个常见词应该在词表里出现啊，那问题应该出现在编码上，只要将字符串编码统一即可，想起之前看github上使用Bert的DNN项目代码，那个项目里在数据加载之前便进行了这样的操作。

解决办法

使用unicodedata包的normalize方法，代码如下

import unicodedata

unicodedata.normalize('NFD', 'anti - spam suit')
Out[6]: 'anti - spam suit'

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python字符统一标准化

问题在Python 3.X环境下使用Hugging Face中Bert模型获取词向量时，发现tokenizer的分词结果出现乱码，如下：# 这是直接在交互式命令行执行的结果tokenizer.tokenize("anti - spam suit")Out[3]: ['anti', '-', 'spa', '##m', 'suit']转念一想，spam这样一个常见词应该在词表里出现啊，那问题应该出现在编码上，只要将字符串编码统一即可，想起之前看github上使用Bert的DNN项目代码，那个项
复制链接

扫一扫

专栏目录

Luban250 CSDN认证博客专家 CSDN认证企业博客

码龄9年

108: 原创

3万+: 周排名

7503: 总排名

190万+: 访问

: 等级

1万+: 积分

194: 粉丝

564: 获赞

163: 评论

1120: 收藏

私信

关注

热门文章

分类专栏

学习资源 9篇
latex 4篇
数据分析 1篇
python 79篇
excel 1篇
机器学习 27篇
linux学习笔记 78篇
线性代数 4篇
自然语言处理 26篇
NLTK 5篇
java 40篇
Jython 4篇
数据库 7篇
统计学 2篇
文本挖掘 12篇
算法与数据结构 5篇
git 6篇
深度学习 4篇
优化理论 2篇
微积分

最新评论

Ubuntu 24.04安装搜狗输入法-解决闪屏问题
m0_64477139: 太感谢了，能顺利输入中文的感觉真的非常舒畅
使用关键词一站式精准搜索指定期刊或会议论文集中的论文
tm_opera_o: 求问下博主，这种文章下面的颜色分类框是怎么弄得，是什么插件吗，可以求一下吗
Ubuntu 24.04安装搜狗输入法-解决闪屏问题
Luban250: 是的，您的这个方法我试过，可行，每次要在终端运行，我就没有深入尝试设置开机脚本或者系统环境变量，谢谢您帖子的启发
Ubuntu 24.04安装搜狗输入法-解决闪屏问题
宋体的微软雅黑: 我博文里面没写，在这说了吧。我推测是因为fcitx是基于X11开发的，需要使用xcb而不是Wayland，搜狗输入法依赖于fcitx，所以它也无法适配Wayland。闪屏的问题可以通过设置QT_QPA_PLATFORM的方式临时解决（彻底解决当然是搜狗完全适配Wayland）。QT_QPA_PLATFORM是Qt的平台抽象（Platform Abstraction）接口的环境变量，可以通过设置这个环境变量然后在同一个终端下面重新运行fcitx（这时fcitx读取到的这个环境变量的值就是xcb了）来解决这个问题。
Ubuntu 24.04安装搜狗输入法-解决闪屏问题
txc_txc: 博主您好，我按照文章所述强制系统使用Xorg作为显示服务器之后，发现打开应用的速度变慢了很多，不知道这是不是普遍现象，有解决办法吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。