PHP抓取网页内容获得网页源代码

转载 2016年08月29日 17:36:53

1、 file_get_contents获取

<span style="white-space:pre">	</span>$url="http://www.baidu.com/";
<span style="white-space:pre">	</span>$fh= file_get_contents('http://www.hxfzzx.com/news/fzfj/');
<span style="white-space:pre">	</span>echo $fh;

2、使用fopen获取网页源代码

<span style="white-space:pre">	</span>$url="http://www.baidu.com/";
<span style="white-space:pre">	</span>$handle = fopen ($url, "rb"); 
<span style="white-space:pre">	</span>$contents = ""; 
<span style="white-space:pre">	</span>while (!feof($handle)) { 
<span style="white-space:pre">		</span>$contents .= fread($handle, 8192); 
<span style="white-space:pre">	</span>} 
<span style="white-space:pre">	</span>fclose($handle); 
<span style="white-space:pre">	</span>echo $contents; //输出获取到得内容。

3、使用CURL获取网页源代码

$url="http://www.baidu.com/";
$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';
$curl = curl_init();	//创建一个新的CURL资源
curl_setopt($curl, CURLOPT_URL, $url);	//设置URL和相应的选项
curl_setopt($curl, CURLOPT_HEADER, 0);  //0表示不输出Header,1表示输出
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);	//设定是否显示头信息,1显示,0不显示。
//如果成功只将结果返回,不自动输出任何内容。如果失败返回FALSE

curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
curl_setopt($curl, CURLOPT_ENCODING, '');	//设置编码格式,为空表示支持所有格式的编码
//header中“Accept-Encoding: ”部分的内容,支持的编码格式为:"identity","deflate","gzip"。

curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);
//设置这个选项为一个非零值(象 “Location: “)的头,服务器会把它当做HTTP头的一部分发送(注意这是递归的,PHP将发送形如 “Location: “的头)。

$data = curl_exec($curl); 
echo $data;
//echo curl_errno($curl); //返回0时表示程序执行成功
curl_close($curl);	//关闭cURL资源,并释放系统资源


转载自:


引用:

PHP抓取采集类snoopy介绍: http://www.nowamagic.net/librarys/veda/detail/855 

PHP获取网页内容的几种方法:     

http://www.oschina.net/code/snippet_861770_19638

http://www.webkaka.com/tutorial/php/2013/052534/

UserAgent设置不当导致php抓取网页失败:

http://www.webkaka.com/tutorial/php/2013/111846/



相关文章推荐

网页抓取:PHP实现网页爬虫方式小结

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。 ...

PHP CURL访问HTTPS获取HTTPS网页源码的函数

//今天写一个采集页面,用PHP CURL https 竟然报错,搜集了一些资料,完成了 PHP CURL 获取HTTPS网页源码的函数。

curl 取网页源码

int writer_callback(char *data, size_t size, size_t nmemb, std::string *buffer) { int result = 0; ...

PHP cURL库函数抓取页面内容

cURL 是一个利用URL语法规定来传输文件和数据的工具,支持很多协议和选项,如HTTP、FTP、TELNET等,能提供 URL 请求相关的各种细节信息。最爽的是,PHP 也支持 cURL 库。 ...

【PHP-网页内容抓取】抓取网页内容的两种常用方法

说到网页内容的抓取,最常用的两种方式: 1.利用file_get_contents()函数,简简单单; 2.CURL抓取工具。CURL是一个非常强大的开源库,支持很多协议,包括HTTP、FTP、TEL...

利用php实现最简单的爬虫

利用php实现最简单的爬虫  在此之间需要验证你的环境是否有打开curl,是否对其支持。 代码很简单,就三行(因为是最简单的,并没有做其他处理)$curl = curl_init("http://w...

php爬虫教程(一) 简单的页面抓取

最近朋友抓取点数据,写了几个抓取数据的脚本。 主要功能是,分别抓起x了么,美x,x度外卖的餐厅和菜品数据 ,后期我把代码分享出来。 今天就先说说简单的页面抓取 -------------------...

PHP获取网页内容的几种方法

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2...

php 获取网页源码(访问并返回网页源码)

以下就是几种常用的用php抓取网页中的内容的方法。 1. file_get_contents    PHP代码    代码如下:>>>>>>>>>>>>>&...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)