【爬虫学习】基础篇1：基础概念

NashConstantine

已于 2024-02-13 14:02:51 修改

阅读量1.2k

点赞数 4

分类专栏：爬虫文章标签：爬虫学习

于 2024-01-16 21:52:36 首次发布

本文链接：https://blog.csdn.net/weixin_42044009/article/details/135636205

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文是一位编程新手分享的爬虫学习系列，介绍了如何用Python编写爬虫，包括发送请求、获取响应、解析HTML以及理解专业术语如URL、HTTP/HTTPS、HTML。作者强调了爬虫步骤和关键请求报文、响应报文的组成部分。

摘要由CSDN通过智能技术生成

本打算在知乎写爬虫学习的系列文章，发现知乎的写作界面很不友好，还是来CSDN写吧！

我是一个编程小白，24年希望认认真真地学一些实用的计算机技术，先从爬虫和redis开始，写系列文章是为了更好地记录知识点，并利用费曼学习法加深对知识点的理解和运用。因此，文章力求可读性强和便于没有基础知识的读者快速掌握爬虫技术，也欢迎大家在评论区交流，共同提高爬虫技术！

爬虫的步骤

此处特指聚焦式爬虫，即对指定的某个网页进行爬虫：

1、发送请求

2、获取相应

3、解析相应

4、保存数据，或对下层url继续爬虫

发送请求：爬虫程序其实是模拟我们的浏览器，向网站的服务器发送各种请求。现在常用的请求为http或者https请求。填写请求时，我们要输入网址url，url的构成是：协议部分+域名部分+（路径）+参数部分。协议部分是https://，域名部分是www.mirros.aliyun.com，路径和参数要结合具体情况。

简言之，我个人理解：爬虫是用python语言编写出一个程序，程序运行之后，伪装成浏览器向网站的服务器发送特定请求（Requests），网站服务器接收到程序的请求后，进行响应并返回HTML网页信息，程序获取到网页信息后，利用特定的代码对信息进行解析和提取，我们抓取到需要的内容和数据，爬虫完成！

请求报文（Requst）

请求报文由以下几个部分组成：

1、请求行（get请求传递参数）

2、请求头（浏览器标识、主机地址、用户信息cookie）

3、请求体（需要请求的数据，常见post请求）

4、空行（换行符、回车符等）

常见的请求：get请求和post请求，其中post请求常用于模拟登录账户。

请求头是最重要的，里面的Referer字段、User-Agent字段（模拟浏览器）、Cookie字段（浏览器暂存服务器发送的信息）是3个重要字段，需要填写，防止被服务器反爬无法获取网页内容。

响应报文（Response）

响应报文包含：1）状态行（状态码，200代表成功）；2）响应头（日期、长度、内容类型）；3）响应体（响应返回的数据or json数据）。

专业术语

对于我这种小白，专业术语是最头疼的，下面这些术语是我归纳整理且尽量用最通俗的语言解释他们的含义：

1、URL：学术名称叫域名，说白了就是网址，例如：www.baidu.com。

2、http/https：这个和上面的网址也是相关的，因为浏览器的网址框中，在域名URL前面就是http://或者https://。其实这是一种协议，专用于网址的，https和http是差不多的，https保密性更强一些。

3、HTML：一种网页的编写语言或者编写格式，浏览器打开某个网页，鼠标右键点击检查或者审查元素，就可以看到该网页的HTML。后续爬虫其实就是解析HTML的。

NashConstantine

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【爬虫学习】基础篇1：基础概念

本来打算在知乎写爬虫学习的系列文章，发现知乎的写作界面很不友好，还是来CSDN写吧！我是一个编程小白，24年希望认认真真地学一些实用的计算机技术，先从爬虫和redis开始，写系列文章是为了更好地记录知识点，并利用费曼学习法加深对知识点的理解和运用。
复制链接

扫一扫