【爬虫学习】基础篇1:基础概念

本文是一位编程新手分享的爬虫学习系列,介绍了如何用Python编写爬虫,包括发送请求、获取响应、解析HTML以及理解专业术语如URL、HTTP/HTTPS、HTML。作者强调了爬虫步骤和关键请求报文、响应报文的组成部分。
摘要由CSDN通过智能技术生成

        本打算在知乎写爬虫学习的系列文章,发现知乎的写作界面很不友好,还是来CSDN写吧!

        我是一个编程小白,24年希望认认真真地学一些实用的计算机技术,先从爬虫和redis开始,写系列文章是为了更好地记录知识点,并利用费曼学习法加深对知识点的理解和运用。因此,文章力求可读性强和便于没有基础知识的读者快速掌握爬虫技术,也欢迎大家在评论区交流,共同提高爬虫技术!

爬虫的步骤

        此处特指聚焦式爬虫,即对指定的某个网页进行爬虫:

        1、发送请求

        2、获取相应

        3、解析相应

        4、保存数据,或对下层url继续爬虫

        发送请求:爬虫程序其实是模拟我们的浏览器,向网站的服务器发送各种请求。现在常用的请求为http或者https请求。填写请求时,我们要输入网址url,url的构成是:协议部分+域名部分+(路径)+参数部分。协议部分是https://,域名部分是www.mirros.aliyun.com,路径和参数要结合具体情况。

        简言之,我个人理解:爬虫是用python语言编写出一个程序,程序运行之后,伪装成浏览器向网站的服务器发送特定请求(Requests),网站服务器接收到程序的请求后,进行响应并返回HTML网页信息,程序获取到网页信息后,利用特定的代码对信息进行解析和提取,我们抓取到需要的内容和数据,爬虫完成!

请求报文(Requst)

        请求报文由以下几个部分组成:

        1、请求行(get请求传递参数)

        2、请求头(浏览器标识、主机地址、用户信息cookie)

        3、请求体(需要请求的数据,常见post请求)

        4、空行(换行符、回车符等)

        常见的请求:get请求和post请求,其中post请求常用于模拟登录账户。

        请求头是最重要的,里面的Referer字段、User-Agent字段(模拟浏览器)、Cookie字段(浏览器暂存服务器发送的信息)是3个重要字段,需要填写,防止被服务器反爬无法获取网页内容。

响应报文(Response)

        响应报文包含:1)状态行(状态码,200代表成功);2)响应头(日期、长度、内容类型);3)响应体(响应返回的数据or json数据)。

专业术语

        对于我这种小白,专业术语是最头疼的,下面这些术语是我归纳整理且尽量用最通俗的语言解释他们的含义:

1、URL:学术名称叫域名,说白了就是网址,例如:www.baidu.com。

2、http/https:这个和上面的网址也是相关的,因为浏览器的网址框中,在域名URL前面就是http://或者https://。其实这是一种协议,专用于网址的,https和http是差不多的,https保密性更强一些。

3、HTML:一种网页的编写语言或者编写格式,浏览器打开某个网页,鼠标右键点击检查或者审查元素,就可以看到该网页的HTML。后续爬虫其实就是解析HTML的。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值