Python爬取网页简单知识梳理

2301_76771994

已于 2023-10-05 14:47:41 修改

阅读量51

点赞数

文章标签： python

于 2023-10-05 14:46:49 首次发布

本文链接：https://blog.csdn.net/2301_76771994/article/details/133578143

版权

Python中有很多专门用于网络爬虫开发的库，比如requests、beautifulsoup4、lxml等等。

LXML库的主要优点是易于使用，在解析大型文档时速度非常快，归档也特别好，且提供了简单的转换方法来将数据转换为python数据类型，从而使文件操作更容易。

安装并导入lxml模块命令：

pip install lxml

from lxml import etree

在使用requests库进行网页抓取时，首先要做的就是发送HTTP请求。具体来说，可以使用requests.get()方法来发送GET请求，并接收响应内容。

request模块的一些东西：

requests 模块处理网页内容的基本逻辑：

定义一个URL 地址；

发送HTTP 请求；

处理HTTP 响应。

请求方法中的参数

响应对象中属性

selector =etree.HTML(html)

例题：查找class="line-4"行中a标签中src内容

list1 = selector.xpath('//*[@class="line-4"]/a/@src')
print(list1)

打印到控制台：

关注