Python学习记录-项目案例实现：爬虫篇 01

最新推荐文章于 2024-01-03 13:15:57 发布

# #

最新推荐文章于 2024-01-03 13:15:57 发布

阅读量498

点赞数

分类专栏： Python学习记录-项目案例实现文章标签： python web 爬虫

本文链接：https://blog.csdn.net/stephqin686/article/details/112970740

版权

Python学习记录-项目案例实现专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文介绍了一个Python爬虫项目，实现了一个简易的网页采集器。通过指定URL（如百度搜索），设置UA伪装，发送GET请求，获取响应结果并将其存储为HTML文件。项目代码中实现了用户动态输入查询内容的功能，能动态抓取用户输入关键词后的搜索结果页面，并保存为相应名称的HTML文件。注意在发送请求前需伪装UA以避免被网站识别为爬虫。

摘要由CSDN通过智能技术生成

项目来源

本项目来源B站UP主路飞学城视频：视频链接点这里

项目需求

利用Python爬虫实现一个简易的网页采集器

具体分析

1. 指定URL

由于本例需要实现简易数据采集器，即实现网页数据采集功能，我们需要获取的是查询结果界面。
首先随意查询一个内容，获取其查询结果页面，此处以“腾讯”为例。
查询页面
URL为https://www.baidu.com/s?ie=UTF-8&wd=%E8%85%BE%E8%AE%AF
再随机查询三个关键词，对应URL粘贴如下：

https://www.baidu.com/s?ie=UTF-8&wd=%E7%BD%91%E6%98%93
https://www.baidu.com/s?ie=UTF-8&wd=%E9%98%BF%E9%87%8C
https://www.baidu.com/s?ie=UTF-8&wd=%E5%BE%AE%E4%BF%A1
对比可发现规律：?后的部分为两个参数，ie表示编码格式，wd表示查询内容（这里出现乱码是因为使用了utf-8编码）。所以，查询界面的通用URL地址为https://www.baidu.com/s，?可加可不加。
将此URL写入代码段，如下：

url = 'https://www.baidu.com/s'

2. UA伪装

UA伪装的对应反爬机制为UA检测，即网站会根据发送请求用户的User-Agent来判断是否为用户本人操作，如检测到为爬虫程序则不会返回响应数据。为了避免这一点，在发送请求之前需进行UA伪装。对应的User-Agent可在任意网页打开抓包工具查看，将UA值复制到代码段即可(不同操作系统，不同浏览器，UA值就不同)。

headers = {
	'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'
}

3. 发送请求

由于本例需求为整张页面的抓取，故使用get方法发送请求。

4. 获取响应结果

因为本例想获取的是整张页面的源码数据，故将响应结果以text形式保存。

response = requests.get(url=url, headers=headers)
page_text = response.text

5. 持久化存储

本例较为简单，故直接保存至同目录下的html文件中即可

with open('./result.html', 'w', encoding='utf-8') as fp:
	fp.write(page_text)

6. 个性化需求

让数据采集器能够动态采集，即模拟用户查询的真实情况，写一个input捕获用户输入

项目代码

整段代码如下

url = 'https://www.baidu.com/s'
    # 进行UA伪装
    header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
    # 使输入动态化
    word = input('输入查询内容：')
    # 用字典封装
    param = {'wd': word}
    res = requests.get(url=url, params=param, headers=header)
    page_text = res.text
    filename = word + '.html'
    with open(filename, 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print('{}读取成功！'.format(filename))

运行结果

输入查询内容：人人网
人人网.html读取成功！

生成的html文件

检验

在浏览器中打开生成的html文件，与用户搜索得到的页面相对比，可以看出二者几乎完全一致，即本案例完成！
爬取下来的html文件
用户搜索到的页面

注意事项

在发送请求前需进行UA伪装，否则不会得到任何结果
若要进行动态输入，则需要传入参数，参数即为查询内容，参数要用字典封装
在发送请求之前要分析请求类型是get还是post

# #

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录