解决php无法通过file_get_contents或curl采集页面内容

php的UserAgent的问题。这很有可能是服务器上做了设置,通过php 

$_SERVER["HTTP_USER_AGENT"]获取User_agent判断是否为正常的浏览器请求 ,因为默认php的file_get_contents函数是不发送ua的。

我们就来认识下什么是User Agent,User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

我通过测试,在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER["HTTP_USER_AGENT"]的值,如果为空的话,就跳转到404错误页面,这样就无法抓取到页面信息。

说下上面朋友nginx服务器可以采集的原因,估计是nginx在编译的时候,开启了UA代理。这个大家可以测试下。

解决这个问题有2种方法

1、设置php.ini配置文件,找到user_agent这个开启,把前面的分号去掉;

2、通过phpini_set()方法设置用户代理。

实例如下

ini_set(‘user_agent’,'Mozilla/4.0(compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR1.1.4322)’);
echo file_get_contents(‘你想要采集的页面url’);

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值