爬虫篇：动态网页的处理方式（下）——模拟浏览器行为

最新推荐文章于 2024-09-10 15:29:55 发布

cslinbo

最新推荐文章于 2024-09-10 15:29:55 发布

阅读量4k

点赞数 5

分类专栏：爬虫文章标签：爬虫动态加载

本文链接：https://blog.csdn.net/ha_hha/article/details/80324707

版权

爬虫专栏收录该内容

4 篇文章 2 订阅

订阅专栏

爬虫篇：动态网页的处理方式（下）——模拟浏览器行为

前言：

前面的例子中，我们使用WebKit库，可以自定义浏览器渲染引擎，这样就可以完全控制想要执行的行为。如果不需要那么高的灵活性，那么还有一个不错的替代品 Selenium 可以选择，它提供了使浏览器自动化的API 接口。

Selenium 简介：

Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持市面上几乎所有的主流浏览器。

本来打算使用的是selenium + PhantomJS的组合，但发现Chrome以及FireFox也相继推出无头 ( headless ) 浏览器模式，个人比较倾向Chrome。本文采用的是Selenium+Chrome的组合。

示例：

运用到爬虫中的思路是：

使用Selenium 渲染网页，解析渲染后的网页源码，或者直接通过Selenium 接口获取页面中的元素。

还是以新浪读书——书摘这个网站为例，目标是获取列表中每篇文章详情页的地址，直接看示例代码：

# coding=utf-8

import time

from selenium import webdriver


class SinaBookSpider(object):

    # 创建可见的Chrome浏览器， 方便调试
    driver = webdriver.Chrome()

    # 创建Chrome的无头浏览器
    # opt = webdriver.ChromeOptions()
    # opt.set_headless()
    # driver = webdriver.Chrome(options=opt)

    driver.implicitly_wait(10)

    total = 1526  # 预先计算的总数据量
    count = 0  # 已爬取的数据量

    # 记录解析以及翻页位置
    location = 0
    click_times = 0

    def run(self):
        """
        开始爬虫
        :return:
        """
        # get方式打开网页
        self.driver.get("http://book.sina.com.cn/excerpt/rwws/")

        self.parselist()

        while self.count < self.total:
            if self.click_times is 2:

                self.driver.find_element_by_css_selector('#subShowContent1_page > span:nth-child(6) > a').click()

                # 等待页面加载完成
                time.sleep(5)
                self.click_times = 0
                self.location = 0
            else:
                self.driver.find_element_by_css_selector('#subShowContent1_loadMore').click()

                # 等待页面加载完成
                time.sleep(3)
                self.click_times += 1

            # 分析加载的新内容，从location开始
            self.parselist()

        self.driver.quit()

    def parselist(self):
        """
        解析列表
        :return:
        """
        divs = self.driver.find_elements_by_class_name("item")

        for i in range(self.location, len(divs)):
            link = divs[i].find_element_by_tag_name('a').get_attribute("href")
            print link

            self.location += 1
            self.count += 1
        print self.count


if __name__ == '__main__':
    spider = SinaBookSpider()
    spider.run()

代码地址：dynamic-web-process —— GitHub
如果你想实际运行上述代码，请在运行之前确定：安装了与浏览器版本对应的驱动，并正确的添加到了环境变量中。

使用selenium时同样要特别注意的是如何确定 网页是否加载完成，有三种方式：
- 强制等待
- 隐形等待
- 显性等待

有关这三种方式的讲解可以看这里：Python selenium —— 一定要会用selenium的等待，三种等待方式解读 —— 灰蓝的博客

总结：

到此，我们介绍了动态页面处理的两种思路：

逆向工程
渲染动态页面
- 使用PySide或ghost.py
- selenium 模拟浏览器

做一下简单的比较：

前者在运行上更快，开销更小。在实际情况中，大多数网页都可以被逆向，但是有些网页足够复杂逆向要花费极大的功夫。
后者在思路上更直观，更容易被接受和理解。浏览器渲染引擎能够为我们节省了解网站后端工作原理的时间，但是渲染网页增大了开销，使其比单纯下载HTML更慢。另外，使用后者通常需要轮训网页来检查是否已经得到所需的HTML元素，这种方式非常脆弱，在网络较慢时经常会失败。

采用哪种方法，取决于爬虫活动中的具体情况：