php simplexmlelement 修改,SimpleXMLElement解析报错解决方案:剔除字符串中错误字符...

实在不愿意写关于PHP乱码方面的东西了,今天再次遇到了一个很郁闷的问题,字符串中含有错误的字码(内码)。

报错:

Warning: SimpleXMLElement::__construct() [function.SimpleXMLElement—construct]:

input conversion failed due to input error, bytes 0xC2 0x2E 0x20 0x20 in

E:\www\alsobuy.php on line 47

PHP在解析XML文档时发生错误,这个问题很常见,主要是由于在xml文档中含有头部声明编码以外的字符,而php严格按照头部声明的编码来解析xml文档。通常都是GB2312编码发生此情况,我一般是使用正则来修改文档头部编码声明来避免。如下:

$xml = preg_replace(“/(^)/iU” ,

‘${1}GBK${2}’ , $xml );

一般将其修改为GBK即可,GB2312包含的汉字实在太少了。

今天却不好使,纳闷了,后来终于发现,该XML文档中含有一个错误字符,根本无法解析。

而在使用正则等处理字符串时,里面含有乱码一般不会报错,估计SimpleXmlElement()是堆栈来完成xml文档解析的,遇到错误字符就挂了。

解决方案:根据具体编码,确定字符内码的范围,遍历一遍,剔除错误的字符。

下面是根据GBK编码范围来剔除的,效果很好。

代码:

//含有两个错误的字符

$str = “我\x97\x7f鎔ㄅㄈ是德\x82\x09文”;

$len = strlen($str);//长度

$new_str = “”;

for($i=0; $i <= $len-1 ;$i++) { $s_hex = ord($str[$i]); if( $s_hex <= 0x7f && $s_hex >=0x00 )

{

//ACSII

$new_str .= $str[$i];

}

else if( $s_hex >= 0x81 && $s_hex <=0xfe )

{

//双字节

if( $i == $len-1 ) break;

$i++;

$s_hex = ord($str[$i]);

if( $s_hex >= 0x40 && $s_hex <= 0xfe && $s_hex != 0x7f)

{

$new_str .= $str[$i-1];

$new_str .= $str[$i];

}

}

}

echo $str.'
’;

echo $new_str.'
’;

?>

效果图:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值