PHP获取网页内容的方法

最新推荐文章于 2021-12-30 14:02:03 发布

小贝壳AI

最新推荐文章于 2021-12-30 14:02:03 发布

阅读量680

点赞数

分类专栏： thinkphp php

php 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

thinkphp

9 篇文章 0 订阅

订阅专栏

PHP Liad 2个月前 (11-10) 393℃

这里收集了3种利用php获得网页源代码抓取网页内容的方法，我们可以根据实际需要选用。

1、使用file_get_contents获得网页源代码

这个方法最常用，只需要两行代码即可，非常简单方便。

参考代码：

 
  
$fh= file_get_contents('http://www.webkaka.com/');
 
echo $fh;

2、使用fopen获得网页源代码

这个方法用的人也不少，不过代码有点多。

参考代码：

 
  
$fh = fopen('http://www.webkaka.com/', 'r');
 
if($fh){
 
    while(!feof($fh)) {
 
        echo fgets($fh);
 
    }
 
}

3、使用curl获得网页源代码

使用curl获得网页源代码的做法，往往是需要更高要求的人使用，例如当你需要在抓取网页内容的同时，得到网页header信息，还有ENCODING编码的使用，USERAGENT的使用等等。

参考代码一：

 
  
$ch = curl_init();// 创建一个新cURL资源
 
curl_setopt($ch, CURLOPT_URL, "http://www.webkaka.com/");// 设置URL和相应的选项
 
curl_setopt($ch, CURLOPT_HEADER, false);
 
 
$data = curl_exec($ch);// 抓取URL并把它传递给浏览器
 
echo $data;//输入结果
 
curl_close($ch);//关闭cURL资源，并且释放系统资源

复制代码
参考代码二：

 
  
$szUrl = "http://www.webkaka.com/";
 
$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';
 
$curl = curl_init();
 
curl_setopt($curl, CURLOPT_URL, $szUrl);
 
curl_setopt($curl, CURLOPT_HEADER, 0);  //0表示不输出Header，1表示输出
 
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
 
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
 
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
 
curl_setopt($curl, CURLOPT_ENCODING, '');
 
curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);
 
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);
 
$data = curl_exec($curl); 
 
echo $data;
 
//echo curl_errno($curl); //返回0时表示程序执行成功 如何从curl_errno返回值获取错误信息
 
exit();