解决php无法通过file_get_contents或curl采集页面内容

最新推荐文章于 2024-02-19 16:40:11 发布

superobser

最新推荐文章于 2024-02-19 16:40:11 发布

阅读量1.9k

点赞数 1

分类专栏： PHP

PHP 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在php中经常用到的采集函数就是file_get_contents和curl函数。php在用file_get_contents函数采集网站时会返回false，但是在浏览

器里打开连接地址就可以看到网页内容。

这是因为服务器上做了设置，通过php $_SERVER["HTTP_USER_AGENT"]获取 User_agent判断是否为正常的浏览器请求 ,因为默认php的

file_get_contents函数是不发送User_agent的。

User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器

及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

我通过测试，在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER

["HTTP_USER_AGENT"]的值，如果为空的话，就跳转到404错误页面，这样就无法抓取到页面信息。

解决这个问题有2种方法

1、设置php.ini配置文件，找到user_agent这个开启，把前面的分号去掉；

2、通过php的ini_set()方法设置用户代理。

实例如下

ini_set(‘user_agent’,'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)’);

echo file_get_contents(‘你想要采集的页面url’);

通过上面2种方法就可以让$_SERVER["HTTP_USER_AGENT"]的值不为空，就可以顺利的采集到你想要的内容。

注意：在设置user_agent的时候，最好使用浏览器的版本或者蜘蛛，像我上面设置的是火狐的，这样被采集的服务器就会正常的通过认

证。因为服务器不会屏蔽蜘蛛或者浏览器的版本的，这个问题你应该清楚吧，哈哈。如果他要是把这个也屏蔽了的话，那就是不让蜘蛛

抓取页面，也无法识别用户使用的浏览器里。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
解决php无法通过file_get_contents或curl采集页面内容

在php中经常用到的采集函数就是file_get_contents和curl函数。php在用file_get_contents函数采集网站时会返回false，但是在浏览器里打开连接地址就可以看到网页内容。这是因为服务器上做了设置，通过php $_SERVER["HTTP_USER_AGENT"]获取 User_agent判断是否为正常的浏览器请求 ,因为默认
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。