《Python网络爬虫从入门到实践 第2版》第5章 解析网页

本章详细介绍了Python网络爬虫解析网页的三种主要方法:正则表达式、BeautifulSoup和lxml。讲解了re.match、re.search、re.findall的使用,以及BeautifulSoup的安装、获取博客标题和其他功能。此外,还提到了lxml的安装和XPath选择器的使用,包括如何在Chrome中查找XPath。最后,通过一个实际项目展示了如何使用BeautifulSoup爬取安居客北京二手房数据。
摘要由CSDN通过智能技术生成

第5章 解析网页

我们已经能够使用requests库从网页把整个源代码爬取下来了,接下来需要从每个网页中提取一些数据。本章主要介绍使用3种方法提取网页中的数据,分别是正则表达式、BeautifulSoup和lxml。

3种方法各有千秋,想要快速学习的读者可以先挑选一种自己喜欢的方法学习,3种方法都能够解析网页。你也可以先阅读本章的最后一节,在了解3种方法各自的优缺点后,再选择一种方法开始学习。

目录

第5章 解析网页

5.1 使用正则表达式解析网页

5.1.1 re.match方法

5.1.2 re.search方法

5.1.3 re.findall方法

5.2 使用BeautifulSoup解析网页

5.2.1 BeautifulSoup的安装

5.2.2 使用BeautifulSoup获取博客标题

5.2.3 BeautifulSoup的其他功能

5.3 使用lxml解析网页

5.3.1 lxml的安装

5.3.2 使用lxml获取博客标题

5.3.3 XPath的选取方法

5.4 总结

5.5 BeautifulSoup爬虫实践:房屋价格数据

5.5.1 网站分析

5.5.2 项目实践

5.5.3 自我实践题

5.1 使用正则表达式解析网页

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的特定字符和这些特定字符的组合组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。举一个简单的例子,假设字符串为'我们爱吃苹果,也爱吃香蕉',我们需要提取其中的水果,用正则表达式匹配'爱吃'后面的内容就可以找到'苹果'和'香蕉'了。

在提取网页中的数据时&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值