curl采集乱码（非编码问题）

最新推荐文章于 2024-01-16 15:35:45 发布

lumengabc

最新推荐文章于 2024-01-16 15:35:45 发布

阅读量4.2k

点赞数 1

分类专栏： myphp

本文链接：https://blog.csdn.net/webnoties/article/details/17500469

版权

myphp 专栏收录该内容

153 篇文章 1 订阅

订阅专栏

采集网址时发现是乱码，但用chrome编码转换后还是乱码，于是确定不是编码问题。

找到原因是，user_agent的问题，需要curl模拟浏览器访问才能得到正常的数据。

	function curlx()
	{
		header("Content-Type:text/html; charset=GBK");
		
		$url 		= "http://tv.sohu.com/s2013/wstzbzhfh/";
		$ch = curl_init();//curl
		$user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2";
		curl_setopt($ch, CURLOPT_URL, $url);
		curl_setopt($ch, CURLOPT_HEADER, 0);
		curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
		$str 	= curl_exec($ch); //得到页面内容
		//$str = mb_convert_encoding($output, "utf-8", "GBK");
		echo($str);

		curl_close($ch);//释放句柄

	}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lumengabc

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
curl采集乱码（非编码问题）

采集网址时发现是乱码，但用chrome编码转换后还是乱码，于是确定不是编码问题。找到原因是，user_agent的问题，需要curl模拟浏览器访问才能得到正常的数据。 function curlx() { header("Content-Type:text/html; charset=GBK"); $url = "http://tv.sohu.com/s2013
复制链接

扫一扫