网络爬虫-01基础-Python实现

  这篇文章基于之前爬取数据相关任务,总结了爬虫的基础内容。首先介绍爬虫的基本步骤,然后附加了一个示例。

1、爬虫的基本步骤

1.1 发送网络请求并获取响应的内容

  发送网络请求实际上相当于我们打开浏览器,输入目标网址访问这个网页的过程;网页服务器返回的数据就是请求对应的响应内容 。

  在爬虫的时候首先向我们想要爬取数据的网站发送一个请求,然后获取网站返回的响应内容,这些响应内容就包含了我们想要爬取的数据。

1.2 解析响应的内容

  在爬虫的时候,我们发送请求之后获取的响应内容一般是HTML、JSON等格式的数据,因此需要对这些数据进行解析,从中提取出我们希望获取的信息。以知乎网站为例,我们在浏览器输入 https://zhuanlan.zhihu.com/p/262230083 ,然后单击右键选择 检查 ,可以看到页面的HTML结构,按照步骤1-4可以定位页面某一元素在HTML结构中的位置,如下图所示:
在这里插入图片描述

1.3 保存解析的数据

  解析完成数据之后,就可以采用合适的方法对数据进行保存,可以存储为本地的文本、图片等,也可以存储到数据库中。

2、Python爬虫示例

  应用Python进行网络爬虫的时候,我们使用了 requests、BeautifulSoup、pandas 3个模块,分别用于发送网络请求获取响应内容、解析响应内容、存储解析之后的数据。代码如下:

import requests
from bs4 import BeautifulSoup
import pandas as pd

2.1 发送网络请求并获取响应的内容

  第一步是发送请求并获取响应的内容,代码如下:

headers = 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值