python3-爬虫 01 爬虫基础

本次主要讨论三个问题:

	1. 爬虫到底是个什么东西? 怎么爬?
	2. 爬虫的重点:会话、Cookies
	3. 不让我们爬咋整?

什么是爬虫

如果将互联网比作一个蜘蛛网,爬虫就是蜘蛛。
每个蜘蛛网的节点都是一个html页面。蜘蛛爬到了这个节点就得到了这个页面的信息。
通过对页面的分析提取,我们就获得了自己想要的信息。(后期详细介绍)
蜘蛛不停地顺着蜘蛛网爬,就不停的在互联网中获取信息。
爬完一张网,就相当于抓取了这个网站的数据。

会话、Cookies

首先我们来了解一下 “无状态HTTP”

无状态http是指当我们向服务器发送请求时,服务器处理我们的请求,但不会记录我们的状态。这个过程时完全独立的,这就导致想要继续处理前面的问题时需要重传,显然这不是我们希望发生的情况。于是便应运而生了两门技术:会话、Cookies

会话:在服务端(服务器),保存用户的会话信息。相当于一个保存用户本次访问信息的保险柜。
Cookies: 在客户端(浏览器),访问会话的凭证。相当于保险柜的密码。
当用户二次请求时,会携带Cookies,继续进行自己的会话。

不让爬怎么办

当我们对一个网站访问的频率过高时,会导致IP被封禁。
我们可以使用代理服务器(中转站),对网站进行访问。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值