java 如何去掉 nbsp_java删除前导zwnbsp字符（零宽度空白字符）

最新推荐文章于 2024-04-28 15:31:15 发布

weixin_39519741

最新推荐文章于 2024-04-28 15:31:15 发布

阅读量4.5k

点赞数 6

文章标签： java 如何去掉 nbsp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39519741/article/details/114221401

版权

在处理分词结果时，遇到了前导zwnbsp字符，记录一下处理方法。

Q1：什么是ZWNBSP？

A1：UTF-8有一个BOM(Byte Order Mark)的问题。

在Unicode编码中有一个叫做"zero-width no-break space (ZWNBSP)"的字符，它的编码是0xFEFF。而0xFEFF在是一个实际中不存在的字符，所以不应该出现在实际传输中。UCSUCS (Unicode Character Set) 规范建议我们在传输字节流前，先传输字符"ZWNBSP"。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little- Endian的。因此字符"ZWNBSP"又被称作BOM。

Q2：怎么防止过滤ZWNBSP字符？

A2：首先来看一下为什么会出现ZWNBSP字符。当我们用记事本保存一个文本文件时，我们可以看到可选编码有下图几种，其中，就有「UTF-8」和「带 BOM 的 UTF-8」，而二者的区别就是的区别就是有没有 BOM，即文件开头有没有 \UFEFF。

而这，正是ZWNBSP字符出现的原因。

5f9e974fb153

ZWNBSP字符往往会出现在字符串首字符，所以，在处理时也不难：

final String UTF8_BOM = "\uFEFF";

if (s.startsWith(UTF8_BOM)) {

s = s.substring(1);

}

参考文献

最后，码一下常见编码总结备不时之需。

2021年2月3日22点42分

weixin_39519741

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
java 如何去掉 nbsp_java删除前导zwnbsp字符（零宽度空白字符）

在处理分词结果时，遇到了前导zwnbsp字符，记录一下处理方法。Q1：什么是ZWNBSP？A1：UTF-8有一个BOM(Byte Order Mark)的问题。在Unicode编码中有一个叫做"zero-width no-break space (ZWNBSP)"的字符，它的编码是0xFEFF。而0xFEFF在是一个实际中不存在的字符，所以不应该出现在实际传输中。UCSUCS (Unicode C...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。