JSON 被转义的字符引发BUG问题

原创 2016年05月30日 17:13:32

结论:

1、  在json_encode时候,第二个参数加上JSON_UNESCAPED_UNICODE。前提是需要PHP 5.4以上版本支持

2、  遇到json数据异常时候,请先关注字符是否包含\u000-\uffff这样字符,如果有需要想办法处理,否则json会转义。

 

背景:今天在和搜索部门同事进行搜索质量调优时候遇到一个问题,就是一个数据生成时候json格式正确。灌入他们引擎,然后在搜索时候底层请求他们接口有数据,而我们这边json_decode之后数据为空。

 

简单理解为:这条数据json_decode失败,导致出不来数据。进一步排查对比发现某个字段不是纯文本描述,他包含“潜在编码”,而这个编码导致json_encode时候出现\u0010 这种被转义的字符,

 

 

其实,之前我一直以为 JSON 会把 ASCII 可显示字符以外的统统转义为 Unicode,
直到有一次我用 JSON.stringify 才发现,其实是 PHP 为我们想的太周到了。

我以前是一位 phper,所以处理 json 只要 json_encode 就可以把数组转为 json 数据了,非常方便。

可以看到,默认就是把所有 ASCII 可显示字符以外的统统转义为 Unicode。

这样做有什么好处呢?
大家在调用 jsonp 接口或者调用js文件的时候,由于文件编码不同导致的乱码问题,应该不会陌生吧。
如果你的文件出现了非英文字符,如果调用时文件编码不一致,则会出现乱码情况。
很多新手朋友应该都纠结过这种问题吧。

但是如果把那些字符转义为 Unicode 之后,无论文件编码是否一致,都不会出现乱码。
这就是为什么 PHP 会默认编码为 Unicode 的原因,她为我们想的太周到了。

当然如果你非要直接显示那些字符,也是OK的,第二个参数加上 JSON_UNESCAPED_UNICODE 即可。
但是这个参数 PHP 5.4.0 才开始支持。

那么 JSON.stringify 会转义哪些呢?
在 json2.js 第 351 行可以看到这个正则。

escapable = /[\\\"\x00-\x1f\x7f-\x9f\u00ad\u0600-\u0604\u070f\u17b4\u17b5\u200c-\u200f\u2028-\u202f\u2060-\u206f\ufeff\ufff0-\uffff]/g;

也就是说 JSON 只会转义这部分字符为 unicode,我们来简单测试下吧。

console.log( JSON.stringify("\x00 \x0a") );

点运行后,可以看到 \x00 被转义为 \u0000 而 \x0a 却被专为了 \n
像 \n 这些特殊字符的转换在刚才那个正则下面就可以看到了。

但是你测试字符 \ufeff 的时候会发现 firefox 和 chrome 根本没转义。
确实,,好像只有 json2 为我们转义了。

为什么原生 JSON.stringify 这么多字符都没转义,难道他就没为我们考虑兼容问题么?
其实我觉得,这个问题可以不要考虑,因为你不会直用静态的页面为其他站点提供接口之类的。
往往只是自己内部用而已,就算提交给后台,一个项目下编码也是一样的,所以内部不需要考虑那些兼容问题。
就好比在自己老家,难道你要普通话或英文跟他们交流么?
直接用方言交流才更加流畅。

当然这个只是我个人观点,也不知道写js引擎的大神是怎么想的。

我们来遍历下原生 JSON 对 \u000-\uffff 这些字符的转义情况吧。

for (var i = 0, str = '', arr = []; i < 0xffff; i++) {
    str = JSON.stringify(String.fromCharCode(i));
    str.indexOf("\\") > -1 && arr.push(str);
}
console.log(arr.join(", "));

我的 chrome 34 得到的结果是

["\u0000", "\u0001", "\u0002", "\u0003", "\u0004", "\u0005", "\u0006", "\u0007", "\b", "\t", "\n", "\u000b", "\f", "\r", "\u000e", "\u000f", "\u0010", "\u0011", "\u0012", "\u0013", "\u0014", "\u0015", "\u0016", "\u0017", "\u0018", "\u0019", "\u001a", "\u001b", "\u001c", "\u001d", "\u001e", "\u001f", "\"", "\\"];

然后在网上搜索发现确实存在对应的问题,更多链接http://www.cnblogs.com/52cik/p/js-json-stringify-escape.html

版权声明:本文为博主原创文章,未经博主允许不得转载。

json 转义字符

package json; public class User { public String name; }      package json; import jo...
  • xiaomin1991222
  • xiaomin1991222
  • 2016年03月10日 16:05
  • 1569

由json字串生成json对象时的转义问题

这个问题的核心就是解析字串时会有两次转义。 --------------------------------------------------- 转义字符(\)对JavaScript中J...
  • k469785635
  • k469785635
  • 2017年06月08日 10:12
  • 1536

由json字串生成json对象时的转义问题

----------------------------------------------------------------------------------------- 转义字符(\)...
  • ROBOTECH_ER
  • ROBOTECH_ER
  • 2014年10月19日 09:49
  • 65725

Java中关于json的转义字符解析

关于转义字符就不再介绍了,通常会从网络侧接受到json数据,然后在客户端进行解析,但是解析时候会出现类似于反斜杠的字符,如\",这样给解析带来了麻烦,对于转义字符的作用还不是很理解,有些说是为了避免乱...
  • tianshi4851
  • tianshi4851
  • 2015年07月19日 17:09
  • 11350

ajax post json数据字符被转义

这两天在做一个easyui datagrid 与服务器端数据交互时遇到了一个问题, 利用ajax上传json格式的数据,对于更改操作使用put方法,对于添加操作使用post方法,js代码如下: ...
  • Snail_cjc
  • Snail_cjc
  • 2016年02月24日 15:59
  • 7445

解析带有转义字符的json

Json数据: {     "ret": "0",     "Weathers": "[{\"date\":\"2017-03-20\",\"weatherType\":\"阴,大部分地区有零星...
  • panyzyw
  • panyzyw
  • 2017年03月20日 18:31
  • 3209

json格式和中的转义字符

1、对象是一个无序的“‘名称/值’对”集合。 (1)一个对象以“{”(左括号)开始,“}”(右括号)结束。 (2)每个“名称”后跟一个“:”(冒号); (3)“‘名称/值’ 对”之间使用“,”(...
  • LegenDavid
  • LegenDavid
  • 2015年11月20日 18:18
  • 3832

iOS Json解析中特殊字符串('\' '\r' '\n' ' ' 等)处理

Json字符串中包含有’\’ , ‘\r’, ‘\n’, ’ ‘,等特殊字符
  • u014588619
  • u014588619
  • 2015年12月19日 14:40
  • 7331

javascript 删除 ascii 控制字符

xxx.replace(/\u0000|\u0001|\u0002|\u0003|\u0004|\u0005|\u0006|\u0007|\u0008|\u0009|\u000a|\u000b|\u0...
  • ISaiSai
  • ISaiSai
  • 2016年12月27日 20:57
  • 1088

Json对象与Json字符串互转(4种转换方式)

1>jQuery插件支持的转换方式:  $.parseJSON( jsonstr ); //jQuery.parseJSON(jsonstr),可以将json字符串转换成json对象 ...
  • u012843873
  • u012843873
  • 2017年04月09日 16:23
  • 213
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:JSON 被转义的字符引发BUG问题
举报原因:
原因补充:

(最多只允许输入30个字)