【和小安一起学·Python爬虫】(一)在开始爬东西之前

本文是【和小安一起学·Python爬虫】系列的第一期,介绍了爬虫的基本概念和工作原理。讲解了URL作为网页地址的重要性,以及爬取网页后如何处理HTML文件。通过一个简单的requests库示例,引导读者开始Python爬虫的初步实践。
摘要由CSDN通过智能技术生成

01、前言

小伙伴们大家好,这里是 【和小安一起学·Python爬虫】 系列栏目的第一期 开始爬东西之前,在接下来的一段时间中,我会向大家一一介绍Python爬虫需要的各种知识,中间辅以一些实战练习。本人也是新手,下面的文章如有错误,也请大家予以指点。相信在我们的一起努力之下,不久之后我们就可以吧Python爬虫熟练的运用于自己的学习、工作中了。

Python爬虫
网络请求
requests库
网络协议基础知识
页面分析与处理
BeautifulSoup库
前端基础知识
各种反扒手段的处理
爬虫框架
Python爬虫导图

02、在开始爬东西之前

在开始正式上手做简单爬虫之前,我们需要先了解一些必备的基础知识,按照最基本的爬虫步骤来讲吧。

1、爬虫怎么知道它要爬什么

运用爬虫,一般来说我们都是想搜集某些资料,比如我在某盗版网站看见一本好看的小说,我想把这本小说储存到我自己的电脑上。小说
为了爬取这本小说,我们的爬虫首先要知道这本小说在哪里,在网络上,我们用 URL统一资源定位符)来描述一个网页的地址。

它的一般格式如下(带方括号[]的为可选项):协议://hostname[:端口(一般省略)]/path
比如:CSDN博客.https://www.csdn.net/nav/watchers

大家不用深究这个URL到底是什么东西,把它想象成一家小卖铺的地址,为了买到小卖铺的零食(小说内容),我们需要到这个小卖铺付钱(做出请求),然后我们就会买到一些东西,但是就像零食需要打开包装才能吃一样,我们请求URL得到的文件也需要一些处理。

2、我爬到的东西怎么有这么多奇怪的符号

直接请求某个URL,我们会得到一个HTML文件,这个文件一般长这样(在任意一个也面单击鼠标右键,选择“查看网页源代码”或者“检查”)小说
不止是爬虫,我们平时上网也是一样,浏览器向小卖铺发出请求,然后小卖铺发给浏览器一包零食(HTML文件),有包装的零食就和上面这张图片一样,浏览器一般会帮你把包装撕开,然后你就看到平时那样多姿多彩的页面。
我们想要爬取的内容就在HTML页面的层层包裹之下,所以我们要使用BeautifulSoup这样的库来处理得到的HTML文件。
如果有对HTML等感兴趣的小伙伴,我推荐大家通过菜鸟教程.的相关内容来学习,在后面的学习中如果遇到这方面的问题,我也会做出解释,本文就不再过多赘述了,现在大家把它理解成零食的包装袋就行。

3、一个简单示例

说了这么多,还是来做一个简单的尝试吧,首先大家需要下载requests库,和下载其他库一样,直接

pip install requests

就可以了,然后我们来尝试请求一下bilibili的主页吧。
B站
requests库基本函数其实就只有下图这几个:requests函数

03、总结

快乐的时光总是短暂的,本文到这里也就结束了,在下篇文章中,我将会结合一个爬取小说的例子来介绍Python爬虫的基础知识。

发出请求
得到HTML文件
处理文件
得到信息

让我们一起向更优秀的自己前进。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值