Python爬虫入门教程！手把手教会你爬取网页数据_python爬取网页数据

最新推荐文章于 2024-08-29 21:24:41 发布

2401_84563179

最新推荐文章于 2024-08-29 21:24:41 发布

阅读量906

点赞数 10

分类专栏：程序员文章标签： python 爬虫服务器

本文链接：https://blog.csdn.net/2401_84563179/article/details/138401202

版权

本文介绍了使用Python进行网页爬虫的基本步骤，包括XPath定位、爬取豆瓣电影明星海报的实战、利用Chrome开发者工具分析网页结构，以及如何处理分页。文章还分享了核心代码，帮助初学者理解爬虫工作原理。

摘要由CSDN通过智能技术生成

from bs4 import BeautifulSoup  # 导入 BeautifulSoup 的方法 
# 可以传入一段字符串，或者传入一个文件句柄。一般都会先用 requests 库获取网页内容，然后使用 soup 解析。 
soup = BeautifulSoup(html_doc,'html.parser')  # 这里一定要指定解析器，可以使用默认的 html，也可以使用 lxml。 
print(soup.prettify())  # 按照标准的缩进格式输出获取的 soup 内容。

BeautifulSoup 的一些简单用法

print(soup.title)  # 获取文档的 title 
print(soup.title.name)  # 获取 title 的 name 属性 
print(soup.title.string)  # 获取 title 的内容 
print(soup.p)  # 获取文档中第一个 p 节点 
print(soup.p['class'])  # 获取第一个 p 节点的 class 内容 
print(soup.find_all('a'))  # 获取文档中所有的 a 节点，返回一个 list 
print(soup.find_all('span', attrs={'style': "color:#ff0000"}))  # 获取文档中所有的 span 且 style 符合规则的节点，返回一个 list

具体的用法和效果，我会在后面的实战中详细说明。

XPath 定位

XPath 是 XML 的路径语言，是通过元素和属性进行导航定位的。几种常用的表达式

表达式含义node选择 node 节点的所有子节点/从根节点选取//选取所有当前节点.当前节点…父节点@属性选取text()当前路径下的文本内容

一些简单的例子

xpath('node')  # 选取 node 节点的所有子节点 
xpath('/div')  # 从根节点上选取 div 元素 
xpath('//div')  # 选取所有 div 元素 
xpath('./div')  # 选取当前节点下的 div 元素 
xpath('//@id')  # 选取所有 id 属性的节点

当然，XPath 非常强大，但是语法也相对复杂，不过我们可以通过 Chrome 的开发者工具来快速定位到元素的 xpath，如下图
在这里插入图片描述
得到的 xpath 为