是php的UserAgent的问题。这很有可能是服务器上做了设置,通过php
我们就来认识下什么是User Agent,User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
我通过测试,在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER["HTTP_USER_AGENT"]的值,如果为空的话,就跳转到404错误页面,这样就无法抓取到页面信息。
说下上面朋友nginx服务器可以采集的原因,估计是nginx在编译的时候,开启了UA代理。这个大家可以测试下。
解决这个问题有2种方法
1、设置php.ini配置文件,找到user_agent这个开启,把前面的分号去掉;
2、通过php的ini_set()方法设置用户代理。
实例如下
ini_set(‘user_agent’,'Mozilla/4.0(compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR1.1.4322)’);
echo file_get_contents(‘你想要采集的页面url’);