《Python网络爬虫从入门到实践 第2版》第4章 动态网页抓取

本文介绍了动态网页抓取的两种方法:通过解析真实地址和使用Selenium模拟浏览器。以Python为例,详细讲述了如何使用Selenium安装、实践案例、获取评论数据以及高级操作,包括控制CSS、图片和JavaScript的加载,以提高爬取效率。此外,还提供了Selenium爬虫实践项目,获取Airbnb深圳前5页短租房源的数据,分析网页结构并提取关键信息。
摘要由CSDN通过智能技术生成

第4章 动态网页抓取

前面爬取的网页均为静态网页,这样的网页在浏览器中展示的内容都位于HTML源代码中。但是,由于主流网站使用JavaScript展现网页内容,和静态网页不同的是,使用JavaScript时,很多内容并不会出现在HTML源代码中,所以爬取静态网页的技术可能无法正常使用。因此,我们需要用到动态网页抓取的两种技术:通过浏览器审查元素解析真实网页地址和使用Selenium模拟浏览器的方法。

本章首先介绍动态网页的实例,让读者了解什么是动态抓取,然后使用上述两种动态网页抓取技术获取动态网页的数据。

目录

第4章 动态网页抓取

4.1 动态抓取的实例

4.2 解析真实地址抓取

4.3 通过Selenium模拟浏览器抓取

4.3.1 Selenium的安装与基本介绍

4.3.2 Selenium的实践案例

4.3.3 Selenium获取文章的所有评论

4.3.4 Selenium的高级操作

4.4 Selenium爬虫实践:深圳短租数据

4.4.1 网站分析

4.4.2 项目实践

4.4.3 自我实践题

4.1 动态抓取的实例

在开始爬取动态网页前,我们还需要了解一种异步更新技术——AJAX(Asynchronous Javascript And XML,异步JavaScript和XML)。它的价值在于通过在后台与服务器进行少量数据交换就可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下对网页的某部分进行更新。一方面减少了网页重复内容的下载,另一方面节省了流量,因此AJAX得到了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值