01、前言
小伙伴们大家好,这里是 【和小安一起学·Python爬虫】 系列栏目的第一期 开始爬东西之前,在接下来的一段时间中,我会向大家一一介绍Python爬虫需要的各种知识,中间辅以一些实战练习。本人也是新手,下面的文章如有错误,也请大家予以指点。相信在我们的一起努力之下,不久之后我们就可以吧Python爬虫熟练的运用于自己的学习、工作中了。
02、在开始爬东西之前
在开始正式上手做简单爬虫之前,我们需要先了解一些必备的基础知识,按照最基本的爬虫步骤来讲吧。
1、爬虫怎么知道它要爬什么
运用爬虫,一般来说我们都是想搜集某些资料,比如我在某盗版网站看见一本好看的小说,我想把这本小说储存到我自己的电脑上。
为了爬取这本小说,我们的爬虫首先要知道这本小说在哪里,在网络上,我们用 URL(统一资源定位符)来描述一个网页的地址。
它的一般格式如下(带方括号[]的为可选项):协议://hostname[:端口(一般省略)]/path
比如:CSDN博客.https://www.csdn.net/nav/watchers
大家不用深究这个URL到底是什么东西,把它想象成一家小卖铺的地址,为了买到小卖铺的零食(小说内容),我们需要到这个小卖铺付钱(做出请求),然后我们就会买到一些东西,但是就像零食需要打开包装才能吃一样,我们请求URL得到的文件也需要一些处理。
2、我爬到的东西怎么有这么多奇怪的符号
直接请求某个URL,我们会得到一个HTML文件,这个文件一般长这样(在任意一个也面单击鼠标右键,选择“查看网页源代码”或者“检查”)
不止是爬虫,我们平时上网也是一样,浏览器向小卖铺发出请求,然后小卖铺发给浏览器一包零食(HTML文件),有包装的零食就和上面这张图片一样,浏览器一般会帮你把包装撕开,然后你就看到平时那样多姿多彩的页面。
我们想要爬取的内容就在HTML页面的层层包裹之下,所以我们要使用BeautifulSoup这样的库来处理得到的HTML文件。
如果有对HTML等感兴趣的小伙伴,我推荐大家通过菜鸟教程.的相关内容来学习,在后面的学习中如果遇到这方面的问题,我也会做出解释,本文就不再过多赘述了,现在大家把它理解成零食的包装袋就行。
3、一个简单示例
说了这么多,还是来做一个简单的尝试吧,首先大家需要下载requests库,和下载其他库一样,直接
pip install requests
就可以了,然后我们来尝试请求一下bilibili的主页吧。
requests库基本函数其实就只有下图这几个:
03、总结
快乐的时光总是短暂的,本文到这里也就结束了,在下篇文章中,我将会结合一个爬取小说的例子来介绍Python爬虫的基础知识。
让我们一起向更优秀的自己前进。