XML乱码问题解析

XML乱码问题和encoding的理解这篇博客已经讲的很明白了,总结一下读取XML选取编码方式的逻辑就是:

  • 如果文挡有 BOM ,就定义了文件编码,则采用此编码;
  • 如果没有 BOM ,就查看文件头 encoding 声明的编码,如声明为<?xml version="1.0"
    encoding="GB2312"?>
    ,则采用 GB2312 编码;
  • 如果上述两个都没有,就默认采用 UTF-8 编码。

需要补充的有:

  • Linux如何查看文件编码:file -i config.xml,结果示例config.xml: application/xml; charset=utf-8,可知此文件的编码是 UTF-8
  • 为什么 ISO-8859-1 编码的文件可以被 GBKGB2312 编码正确读取呢?原因是 GBKGB2312 专门用来表示汉字,是双字节编码,而英文字母编码和 ISO-8859-1 一致(兼容 ISO-8859-1 编码)。其中 GBK 编码能够用来同时表示繁体字和简体字,而 GB2312 只能表示简体字,GBK 是兼容 GB2312 编码的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值