近期百度贴吧乱码问题的原因解析及解决方法


最近几天,百度贴吧发帖频频出现乱码,并伴随 ?#65308; ?#65310; 之类怪异代码。



乱码产生的原因:

我发现,百度贴吧有意将全角中文标点“<”和“>”替换成相应的html转义代码。两个标点的机内字节码分别为 A3 BC 和 A3 BE (两个字节存储一个汉字),相应的转义代码分别为 < >。但这种替换只是简单的单字节字符串的匹配和替代,并未按汉字编码的双字节进行分割,导致相邻的两个汉字的 [前一个汉字的第二字节] 与 [后一个汉字的第一字节] 极有可能“拼凑”出 A3 BC 或 A3 BE ,倘若将此处的两个字节替换成转义代码,会截断这前后两个汉字,并导致后续的双字节汉字全部错位!

例如,“常见”的字节码是 B3 A3 BC FB ,中间的 A3 BC 恰巧是“<”的编码,这两个字节被替换成了<字符串,余下了前面的 B3 和后面的 FB 两个残缺的字节,FB字节再与后面的双字节序列组合,导致后续字节组合全部错位(除非遇到ASCII单字节字符)!如图,第一个窗口是“<>”两个字符的字节码,其中 A3 BC 是“<”的编码;第二个窗口是“常见”的字节码,看以看出中间两个字节正是“A3 BC”;第三个窗口中的字符串包含了“常见”;第四个窗口是经百度发帖程序替换过的,图中选中区域是“<”的字节码,恰巧是第三个窗口中的“A3 BC”被替换后的结果!



基于上述原理,我编写程序对汉字字库进行搜索,结果分成AB两组:A组是第二字节为A3的汉字,B组是第一字节为BC或BE的汉字。分别从A组合B组任意取出一个字,前后组合必定会产生乱码。搜索发现,“A组”大约有120个,“B组”大约有390个,也就是说这种组合约为45600种,并不是一个小数目,而这其中包括月40个常用词,比如“常见、埃及、海景、模具、疲倦、危急、祝酒”等,可见出现乱码的概率是极高的!我到“埃及吧”、“模具吧”、“海景吧”看了一下,果然最近几天的新帖子都是乱码!

解决方法与处理建议:

对吧友们来说,发帖时可以在这种组合的词之间加一个空格以避免乱码。
对百度技术人员来说,这个bug导致的乱码太多了,应尽快修复。

相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页