【和小安一起学·Python爬虫】（一）在开始爬东西之前

本文链接：https://blog.csdn.net/hu197136/article/details/106238216

本文是【和小安一起学·Python爬虫】系列的第一期，介绍了爬虫的基本概念和工作原理。讲解了URL作为网页地址的重要性，以及爬取网页后如何处理HTML文件。通过一个简单的requests库示例，引导读者开始Python爬虫的初步实践。

摘要由CSDN通过智能技术生成

01、前言

小伙伴们大家好，这里是 【和小安一起学·Python爬虫】 系列栏目的第一期开始爬东西之前，在接下来的一段时间中，我会向大家一一介绍Python爬虫需要的各种知识，中间辅以一些实战练习。本人也是新手，下面的文章如有错误，也请大家予以指点。相信在我们的一起努力之下，不久之后我们就可以吧Python爬虫熟练的运用于自己的学习、工作中了。

02、在开始爬东西之前

在开始正式上手做简单爬虫之前，我们需要先了解一些必备的基础知识，按照最基本的爬虫步骤来讲吧。

1、爬虫怎么知道它要爬什么

运用爬虫，一般来说我们都是想搜集某些资料，比如我在某盗版网站看见一本好看的小说，我想把这本小说储存到我自己的电脑上。
为了爬取这本小说，我们的爬虫首先要知道这本小说在哪里，在网络上，我们用 URL（统一资源定位符）来描述一个网页的地址。

它的一般格式如下（带方括号[]的为可选项）：协议://hostname[:端口（一般省略）]/path
比如：CSDN博客.https://www.csdn.net/nav/watchers

大家不用深究这个URL到底是什么东西，把它想象成一家小卖铺的地址，为了买到小卖铺的零食（小说内容），我们需要到这个小卖铺付钱（做出请求），然后我们就会买到一些东西，但是就像零食需要打开包装才能吃一样，我们请求URL得到的文件也需要一些处理。

2、我爬到的东西怎么有这么多奇怪的符号

直接请求某个URL，我们会得到一个HTML文件，这个文件一般长这样（在任意一个也面单击鼠标右键，选择“查看网页源代码”或者“检查”）
不止是爬虫，我们平时上网也是一样，浏览器向小卖铺发出请求，然后小卖铺发给浏览器一包零食（HTML文件），有包装的零食就和上面这张图片一样，浏览器一般会帮你把包装撕开，然后你就看到平时那样多姿多彩的页面。
我们想要爬取的内容就在HTML页面的层层包裹之下，所以我们要使用BeautifulSoup这样的库来处理得到的HTML文件。
如果有对HTML等感兴趣的小伙伴，我推荐大家通过菜鸟教程.的相关内容来学习，在后面的学习中如果遇到这方面的问题，我也会做出解释，本文就不再过多赘述了，现在大家把它理解成零食的包装袋就行。