python3-爬虫 01 爬虫基础

最新推荐文章于 2023-05-05 10:05:02 发布

今天我牙疼

最新推荐文章于 2023-05-05 10:05:02 发布

阅读量232

点赞数

分类专栏：爬虫-Python3 文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_40924514/article/details/109400172

版权

关键词由CSDN通过智能技术生成

15 篇文章 0 订阅

订阅专栏

本次主要讨论三个问题：

	1. 爬虫到底是个什么东西? 怎么爬？
	2. 爬虫的重点：会话、Cookies
	3. 不让我们爬咋整？

如果将互联网比作一个蜘蛛网，爬虫就是蜘蛛。
每个蜘蛛网的节点都是一个html页面。蜘蛛爬到了这个节点就得到了这个页面的信息。
通过对页面的分析提取，我们就获得了自己想要的信息。（后期详细介绍）
蜘蛛不停地顺着蜘蛛网爬，就不停的在互联网中获取信息。
爬完一张网，就相当于抓取了这个网站的数据。

无状态http是指当我们向服务器发送请求时，服务器处理我们的请求，但不会记录我们的状态。这个过程时完全独立的，这就导致想要继续处理前面的问题时需要重传，显然这不是我们希望发生的情况。于是便应运而生了两门技术：会话、Cookies

当我们对一个网站访问的频率过高时，会导致IP被封禁。
我们可以使用代理服务器（中转站），对网站进行访问。

关注