【python教程入门学习】Python爬虫抓取网页

最新推荐文章于 2024-04-27 16:08:33 发布

Python文泽老师

最新推荐文章于 2024-04-27 16:08:33 发布

阅读量586

点赞数 1

分类专栏： python 文章标签： python 爬虫 pygame pycharm 人工智能

本文链接：https://blog.csdn.net/python_9988/article/details/120710062

版权

这篇教程介绍了Python爬虫的初步实践，包括拼接URL、发送请求和保存网页到本地。通过导入urllib库，演示了如何编写简单的爬虫程序，并通过函数式编程进行代码优化。教程中，读者将学会如何创建一个抓取特定网页并以HTML文件形式存储在PyCharm工作目录的爬虫。

摘要由CSDN通过智能技术生成

本节讲解第一个 Python 爬虫实战案例：抓取您想要的网页，并将其保存至本地计算机。

首先我们对要编写的爬虫程序进行简单地分析，该程序可分为以下三个部分：
拼接 url 地址
发送请求
将照片保存至本地

明确逻辑后，我们就可以正式编写爬虫程序了。
导入所需模块
本节内容使用 urllib 库来编写爬虫，下面导入程序所用模块：

from urllib import request
from urllib import parse
拼接URL地址
定义 URL 变量，拼接 url 地址。代码如下所示：
url = 'http://www.baidu.com/s?wd={}'
#想要搜索的内容
word = input('请输入搜索内容:')
params = parse.quote(word)
full_url = url.format(params)
向URL发送请求
发送请求主要分为以下几个步骤：
创建请求对象-Request
获取响应对象-urlopen
获取响应内容-read

代码如下所示：

#重构请求头
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
#创建请求对应
req = request.Request(url=full_url,headers=headers)
#获取响应对象
res = request.urlopen(req)
#获取响应内容
html = res.read().decode("utf-8")
保存为本地文件
把爬取的照片保存至本地，此处需要使用 Python 编

最低0.47元/天解锁文章

Python文泽老师

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【python教程入门学习】Python爬虫抓取网页

本节讲解第一个 Python 爬虫实战案例：抓取您想要的网页，并将其保存至本地计算机。首先我们对要编写的爬虫程序进行简单地分析，该程序可分为以下三个部分：拼接 url 地址发送请求将照片保存至本地明确逻辑后，我们就可以正式编写爬虫程序了。导入所需模块本节内容使用 urllib 库来编写爬虫，下面导入程序所用模块：from urllib import requestfrom urllib import parse拼接URL地址定义 URL 变量，拼接 url 地址。代码如下所示：url
复制链接

扫一扫