解决php无法通过file_get_contents或curl采集页面内容，file_get_contents无法获取curl post内容的问题

最新推荐文章于 2023-10-28 15:53:49 发布

悠悠倾我心

最新推荐文章于 2023-10-28 15:53:49 发布

阅读量2.1k

点赞数

分类专栏： php 文章标签： curlpost

php 专栏收录该内容

47 篇文章 0 订阅

订阅专栏

工作中要采集一些网页的数据，在php中常用到的采集函数就是file_get_contents和curl函数。php在用file_get_contents函数采集网站时，有时明明用浏览器可以看，但就是采不到任何内容。

这样的问题我就遇到了，我要采集的这个页面却怎么也获取不到数据，经过测试获取百度、新浪、网易等页面内容都是正常。这个问题让我百思不得其解，于是找了个朋友来试试，他通过file_get_contents和curl函数获取都是正常的。我就郁闷了，后来才知道他用的是nginx的web服务器，我的是apache服务器。

通过不断的测试和查找资料，发现原来是php的User Agent的问题。这很有可能是服务器上做了设置，通过php $_SERVER[“HTTP_USER_AGENT”]获取 User_agent判断是否为正常的浏览器请求 ,因为默认php的file_get_contents函数是不发送ua的。

我们就来认识下什么是User Agent，User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

我通过测试，在要抓取的页面输出变量 $_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$ _SERVER[“HTTP_USER_AGENT”]的值，如果为空的话，就跳转到404错误页面，这样就无法抓取到页面信息。