UTF-8编码检测失败特例

最新推荐文章于 2024-07-13 10:44:45 发布

myan

最新推荐文章于 2024-07-13 10:44:45 发布

阅读量1w

点赞数

文章标签： string ruby class

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/myan/article/details/1474112

版权

    Ruby中进行UTF-8编码检测的方法是String#unpack方法，传入 "U*" 模板。这个模板的意思是把字符串当成一个UTF-8串，分别把每一个Unicode字符转换成对应的代码点并组合为数组。字符串本身确实是UTF-8，则能够转换成功，否则将抛出异常。根据这种行为，给String添加如下实例方法：

class String
    def utf8?
      unpack('U*') rescue return false
      true
    end
end

    以上程序在大部分情况下确实正确。但是我发现GB2312编码中，下列汉字的GB2312编码能够通过上面方法的检测，而被误认为是UTF-8串：

    位、前、支、校、写、元

    可能还有一些。因此，上述方法不适宜用来对可能包含GB2312编码的中文字串进行UTF-8编码检测。

    注意这不是Ruby的问题，而是不同编码模式导致的本质难题。

    可以做以下实验：

    1. 打开notepad，写入一个‘位’字，不回车，直接以ANSI编码保存（注意必须用ANSI编码保存）。

    2. 再次打开这个文件，你会看到显示出来的不是“位”字，而是λ。

    同样，“前、支、校、写、元” 等单字也存在类似现象。

    可见字符串编码检测并不容易。不知有没有什么可靠的方法（除了用Iconv库直试转以外），望知者不吝赐教。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

myan CSDN认证博客专家 CSDN认证企业博客

码龄24年

196: 原创

5113: 周排名

484: 总排名

485万+: 访问

: 等级

3万+: 积分

1万+: 粉丝

4263: 获赞

6478: 评论

6197: 收藏

私信

关注

热门文章

分类专栏

最新评论

技术路线的选择重要但不具有决定性
weixin_46538809: 引用「关于这个观点，话题太大，我不打算赘述。」我就想看这个啊前辈
施密特的泄密讲话对区块链有何启发？
芝士码匠（Geek Coder）: 施密特的观点确实给人不少启发，尤其是在区块链领域，他强调了技术的潜力和挑战。结合ChatGPT的讨论，让人思考未来区块链在智能合约、数据安全等方面的应用可能会有更多创新。值得一读！
施密特的泄密讲话对区块链有何启发？
HRSYS: 这篇文章挺有意思的，施密特的观点给区块链技术的应用和未来发展带来新思考。他强调了数据安全和隐私保护的重要性，这对区块链社区是一个重要提醒。我们确实需要在技术进步的同时，更加重视用户数据的安全和隐私保护。
施密特的泄密讲话对区块链有何启发？
codears: 我个人理解是一个区块链系统的所有用户都保留完整的数据；如果茫茫多的区块链系统，那更多的数据保存在每个用户的节点上，造成了太多的资源浪费。感觉非常受限制呀。
施密特的泄密讲话对区块链有何启发？
理觞饮: 现阶段的确是这个问题，而且分布式系统应用到计算上面，最大的瓶颈就是网络传输，举个最典型的例子就是apache spark，计算速度较hadoop的mapreduce提升了十多甚至上百倍，但是就慢在数据传输，曾经处理过一套日志系统的，数据传输的时间是计算时间的三倍。人工智能的未来肯定是分布式，但这个发展过程可能是十年、二十年。

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。