curl搞乱了编码

最新推荐文章于 2024-07-16 20:50:21 发布

digmouse

最新推荐文章于 2024-07-16 20:50:21 发布

阅读量3.8k

点赞数

分类专栏：数据抓取文章标签： encoding html url 浏览器 file

本文链接：https://blog.csdn.net/digmouse/article/details/3496894

版权

数据抓取专栏收录该内容

4 篇文章 0 订阅

订阅专栏

我用curl模拟了浏览器，但是最后发现抓取的所有的html，怎么识别都是utf8的编码。不知道是我程序的问题还是curl就是如此。

 
     function get_html($url)
    {
    $ch = curl_init();
    curl_setopt ($ch,CURLOPT_URL,$url);
    curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
    curl_setopt($ch,CURLOPT_USERAGENT,"Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.4) Gecko/20030624 Netscape/7.1 (ax)");
    $res = curl_exec($ch);
    curl_close ($ch);
    $html=$res;
    //echo mb_detect_encoding($html); //判断编码
    //echo mb_detect_encoding($html,array('ascii','utf-8','gbk','cp936')).'<br>';
   // mb_detect_encoding($str,array('ascii','utf-8','gbk','cp936'));
    $html=mb_convert_encoding($html, "UTF-8", "gb2312");
    return $html;
    }
 

但是我用file_get_contents就可以解决这个问题。

digmouse

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
curl搞乱了编码

我用curl模拟了浏览器，但是最后发现抓取的所有的html，怎么识别都是utf8的编码。不知道是我程序的问题还是curl就是如此。 function get_html($url) { $ch = curl_init(); curl_setopt ($ch,CURLOPT_URL,$url); curl_setopt($ch,CURLOPT_RETURNTRANSFER
复制链接

扫一扫