Selenium模拟浏览器下载页面html源码

最新推荐文章于 2024-05-29 05:59:30 发布

岛主2008

最新推荐文章于 2024-05-29 05:59:30 发布

阅读量6k

点赞数

分类专栏：数据挖掘自动采集文章标签： selenium html 浏览器 stream 测试 php

本文链接：https://blog.csdn.net/pqhdp/article/details/5700026

版权

数据挖掘同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

自动采集

2 篇文章 0 订阅

订阅专栏

有些页面的内容，是在页面加载完后，运行js来调出来显示的。这时候如果只是利用file_get_contents之类函数。这时候Selenium可以帮上大忙。

不过在让Selenium真正按照意愿来工作前，还是遇到了不少麻烦，首先就是getHtmlSource()只能返回部分html源码，即使使用了sleep()来等待和判断还是无济于事，但是用getBodyText()可以返回全部页面text(无html)。看了下php源码，从SRC通信取回数据的两个函数stream_set_blocking()和stream_get_contents()，问题就在这里了，看文档的这段“ In non-blocking mode an fgets() call will always return right away while in blocking mode it will wait for data to become available on the stream.” 如果换为blocking mode的话，就会一直等待，SRC把浏览器启动了，但是无法打开页面，只是一直停在空白页面状态，php也一直在运行，把设置为true是不行的。如果不用这stream函数，而是使用一般的fread又会怎么样呢？

//原代码 /*stream_set_blocking($handle, false); $response = stream_get_contents($handle);*/ //替换为 while (!feof($handle)) { $response .= fread($handle, 8192); }

测试，发现还是一样的问题。

到目前为之，还是无法解决这个问题。getHtmlSource()真的不能完全返回页面源码？！

今天又测试下：

if ($verb == 'getHtmlSource') { $response = ''; while (!feof($handle)) { $response .= fread($handle, 8192); } } else { stream_set_blocking($handle, false); $response = stream_get_contents($handle); }

这样可以取得全部的html源码，但是发现很慢。

岛主2008

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Selenium模拟浏览器下载页面html源码

有些页面的内容，是在页面加载完后，运行js来调出来显示的。这时候如果只是利用file_get_contents之类函数。这时候Selenium可以帮上大忙。不过在让Selenium真正按照意愿来工作前，还是遇到了不少麻烦，首先就是getHtmlSource()只能返回部分html源码，即使使用了sleep()来等待和判断还是无济于事，但是用getBodyText()可以返回全部页面text(无html)。看了下php源码，从SRC通信取回数据的两个函数stream_set_blocking()和strea
复制链接

扫一扫

专栏目录