curl抓取页面是乱码 php_PHP获取网页信息得到乱码的解决:CURLOPT_ENCODING

最近做了个自动读取其它网站信息并入库的网站,不过测试发现获取到的数据都是乱码。而网站的源码明显没有什么特殊加密的,用view-source:url查看网站的源码信息很正常。

我是用下面这个函数获取网页内容的:

function getUrlContent($url) {

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 25);

$output = curl_exec($ch);

curl_close($ch);

$output=mb_convert_encoding($output , "UTF-8", "GBK");

return $output;

}

虽然PHP自带有file_get_contents()的函数,传入一个url就可以返回url的内容信息。不过这个函数封装了没有过程,不如上面的是怎样的获取的。

开始以为是编码问题,在那个mb_convert_encoding里面修改输入输出的编码弄好会一段时间,没什么效果,只是乱码变化了下,仍然是乱码。度娘下,还是被我找到了,之所以出现乱码并非编码的问题,而是网页压缩了。要加一条curl_setopt($ch, CURLOPT_ENCODING, 'gzip');。这样获取到的内容就不再乱码了。

此外,尝试过用file_get_contents(),返回是乱码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值