php采集代码 乱码问题,php做采集网页 preg_match_all 处理中文的时候出现乱码(已解决)...

php用preg_match_all采集html网页内容时容易出现中文乱码,总结为以下几种解决方案。

1.如果只是简单的编码问题,将当前php文件改成utf8编码试试。

2.如果还是不行,就用iconv进行转码

$content = iconv(”GBK”, “UTF-8″, $content);

$content = mb_convert_encoding($content, “UTF-8″, “GBK”);

preg_match_all("|

(.*)[li>]+>|U",$content, $out, PREG_SET_ORDER);

echo $out[0][0];

$file = file_get_contents("http://blog.xbmu.info");//远程抓取

preg_match_all();//提取信息

//根据需要选择转码:

$str2 = iconv("utf-8", "gb2312//IGNORE",$str2);//把utf转gb2312

$str2 = iconv("gb2312", "utf-8//IGNORE",$str2);//把gb2312转utf

3.当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding 函数或者mb_ereg_*系列函数,详情参见PHP的Manual。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值