《Python网络爬虫从入门到实践第2版》第5章解析网页

最新推荐文章于 2024-03-23 17:37:22 发布

jxgy01

最新推荐文章于 2024-03-23 17:37:22 发布

阅读量149

点赞数

分类专栏： Python网络爬虫从入门到实践第2版

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jxgy01/article/details/118551028

版权

Python网络爬虫从入门到实践第2版专栏收录该内容

18 篇文章 4 订阅 ¥30.00 ¥99.00

订阅专栏

本章详细介绍了Python网络爬虫解析网页的三种主要方法：正则表达式、BeautifulSoup和lxml。讲解了re.match、re.search、re.findall的使用，以及BeautifulSoup的安装、获取博客标题和其他功能。此外，还提到了lxml的安装和XPath选择器的使用，包括如何在Chrome中查找XPath。最后，通过一个实际项目展示了如何使用BeautifulSoup爬取安居客北京二手房数据。

摘要由CSDN通过智能技术生成

第5章　解析网页

我们已经能够使用requests库从网页把整个源代码爬取下来了，接下来需要从每个网页中提取一些数据。本章主要介绍使用3种方法提取网页中的数据，分别是正则表达式、BeautifulSoup和lxml。

3种方法各有千秋，想要快速学习的读者可以先挑选一种自己喜欢的方法学习，3种方法都能够解析网页。你也可以先阅读本章的最后一节，在了解3种方法各自的优缺点后，再选择一种方法开始学习。

目录

第5章　解析网页

5.1　使用正则表达式解析网页

5.1.1　re.match方法

5.1.2　re.search方法

5.1.3　re.findall方法

5.2　使用BeautifulSoup解析网页

5.2.1　BeautifulSoup的安装

5.2.2　使用BeautifulSoup获取博客标题

5.2.3　BeautifulSoup的其他功能

5.3　使用lxml解析网页

5.3.1　lxml的安装

5.3.2　使用lxml获取博客标题

5.3.3　XPath的选取方法

5.5　BeautifulSoup爬虫实践：房屋价格数据

5.5.1　网站分析

5.5.2　项目实践

5.5.3　自我实践题

5.1　使用正则表达式解析网页

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的特定字符和这些特定字符的组合组成一个规则字符串，这个规则字符串用来表达对字符串的一种过滤逻辑。举一个简单的例子，假设字符串为'我们爱吃苹果，也爱吃香蕉'，我们需要提取其中的水果，用正则表达式匹配'爱吃'后面的内容就可以找到'苹果'和'香蕉'了。

在提取网页中的数据时&

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。