网络爬虫-01基础-Python实现

DataScienceZone

已于 2022-02-12 18:11:44 修改

阅读量1.1k

点赞数

分类专栏：网络爬虫文章标签： python 爬虫

于 2021-10-23 10:27:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35487917/article/details/120807645

版权

本文介绍了网络爬虫的基础知识，包括基本步骤：发送网络请求、解析响应内容和保存数据。以Python为例，使用requests、BeautifulSoup和pandas模块进行演示。文章通过一个具体的爬虫示例，展示了如何抓取网页内容并存储到Excel文件。还提到了URL指向文件时的处理方法，并预告了爬虫可能遇到的反爬策略和并行爬取等进阶话题。

摘要由CSDN通过智能技术生成

这篇文章基于之前爬取数据相关任务，总结了爬虫的基础内容。首先介绍爬虫的基本步骤，然后附加了一个示例。

1、爬虫的基本步骤

1.1 发送网络请求并获取响应的内容

发送网络请求实际上相当于我们打开浏览器，输入目标网址访问这个网页的过程；网页服务器返回的数据就是请求对应的响应内容。

在爬虫的时候首先向我们想要爬取数据的网站发送一个请求，然后获取网站返回的响应内容，这些响应内容就包含了我们想要爬取的数据。

1.2 解析响应的内容

在爬虫的时候，我们发送请求之后获取的响应内容一般是HTML、JSON等格式的数据，因此需要对这些数据进行解析，从中提取出我们希望获取的信息。以知乎网站为例，我们在浏览器输入 https://zhuanlan.zhihu.com/p/262230083 ，然后单击右键选择检查，可以看到页面的HTML结构，按照步骤1-4可以定位页面某一元素在HTML结构中的位置，如下图所示：
在这里插入图片描述

1.3 保存解析的数据

解析完成数据之后，就可以采用合适的方法对数据进行保存，可以存储为本地的文本、图片等，也可以存储到数据库中。

2、Python爬虫示例

应用Python进行网络爬虫的时候，我们使用了 requests、BeautifulSoup、pandas 3个模块，分别用于发送网络请求获取响应内容、解析响应内容、存储解析之后的数据。代码如下：

import requests
from bs4 import BeautifulSoup
import pandas as pd

2.1 发送网络请求并获取响应的内容

第一步是发送请求并获取响应的内容，代码如下：

headers = {
   'user-agent

最低0.47元/天解锁文章

DataScienceZone

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。