第5章 解析网页
我们已经能够使用requests库从网页把整个源代码爬取下来了,接下来需要从每个网页中提取一些数据。本章主要介绍使用3种方法提取网页中的数据,分别是正则表达式、BeautifulSoup和lxml。
3种方法各有千秋,想要快速学习的读者可以先挑选一种自己喜欢的方法学习,3种方法都能够解析网页。你也可以先阅读本章的最后一节,在了解3种方法各自的优缺点后,再选择一种方法开始学习。
目录
5.1 使用正则表达式解析网页
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的特定字符和这些特定字符的组合组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。举一个简单的例子,假设字符串为'我们爱吃苹果,也爱吃香蕉',我们需要提取其中的水果,用正则表达式匹配'爱吃'后面的内容就可以找到'苹果'和'香蕉'了。
在提取网页中的数据时&