php爬虫模拟浏览器,ini_set()用法

用PHP抓数据时,会遇到浏览器能打开URL,爬虫却返回不了数据。
这时候就可能是该URL有手机端版本,而PHP默认是不带浏览器信息的,就可能返回的是手机端页面。
可以在程序头部加入:
ini_set(‘user_agent’,’Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)’);
这里模拟的是IE8,更多浏览器标识可以百度。
附:关于ini_set()方法
PHP ini_set用来设置php.ini的值,在函数执行的时候生效,脚本结束后,设置失效。无需打开php.ini文件,就能修改配置,对于虚拟空间来说,很方便。

函数格式:string ini_set(string varname,stringnewvalue)
不是所有的参数都可以配置,可以查看手册中的列表。

常见的设置:
@ ini_set(‘memory_limit’, ‘64M’);
‘menory_limit’:设定一个脚本所能够申请到的最大内存字节数,这有利于写的不好的脚本消耗服务器上的可用内存。@符号代表不输出错误。

@ini_set(‘display_errors’, 1);
‘display_errors’:设置错误信息的类别。

@ini_set(‘session.auto_start’, 0);
‘session.auto_start’:是否自动开session处理,设置为1时,程序中不用session_start()来手动开启session也可使用session,
如果参数为0,又没手动开启session,则会报错。

@ini_set(‘session.cache_expire’, 180);
‘session.cache_expire’:指定会话页面在客户端cache中的有限期(分钟)缺省下为180分钟。如果设置了session.cache_limiter=nocache时,此处设置无 效。

@ini_set(‘session.use_cookies’, 1);
‘session.use_cookies’:是否使用cookie在客户端保存会话ID;

@ini_set(‘session.use_trans_sid’, 0);
‘session.use_trans_sid’:是否使用明码在URL中显示SID(会话ID),
默认是禁止的,因为它会给你用户带来安全危险:
1.用户可能将包含有效的sid的URL通过email/irc/QQ/MSN等途径告诉其他人。
2.包含有效sid的URL可能会保存在公用电脑上。
3.用户可能保存带有固定不变的SID的URL在他们的收藏夹或者浏览历史记录里。 基于URL的会话管理总是比基于Cookie的会话管理有更多的风险,所以应当禁用。

阅读更多
换一批

没有更多推荐了,返回首页