Python爬虫超详细讲解（零基础入门，老年人都看的懂）

金汤肥牛面.

已于 2024-01-16 13:57:11 修改

阅读量955

点赞数 1

文章标签： python 爬虫开发语言学习人工智能

于 2022-12-08 16:52:17 首次发布

本文链接：https://blog.csdn.net/qq_46094651/article/details/128239645

版权

讲解我们的爬虫之前，先概述关于爬虫的简单概念（毕竟是零基础教程）

爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。
原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。

为什么我们要使用爬虫

互联网大数据时代，给予我们的是生活的便利以及海量数据爆炸式的出现在网络中。

过去，我们通过书籍、报纸、电视、广播或许信息，这些信息数量有限，且是经过一定的筛选，信息相对而言比较有效，但是缺点则是信息面太过于狭窄了。不对称的信息传导，以致于我们视野受限，无法了解到更多的信息和知识。
互联网大数据时代，我们突然间，信息获取自由了，我们得到了海量的信息，但是大多数都是无效的垃圾信息。
例如新浪微博，一天产生数亿条的状态更新，而在百度搜索引擎中，随意搜一条——减肥100,000,000条信息。

在如此海量的信息碎片中，我们如何获取对自己有用的信息呢？

答案是筛选！

通过某项技术将相关的内容收集起来，在分析删选才能得到我们真正需要的信息。

这个信息收集分析整合的工作，可应用的范畴非常的广泛，无论是生活服务、出行旅行、金融投资、各类制造业的产品市场需求等等……都能够借助这个技术获取更精准有效的信息加以利用。

网络爬虫技术，虽说有个诡异的名字，让能第一反应是那种软软的蠕动的生物，但它却是一个可以在虚拟世界里，无往不前的利器。

爬虫准备工作

我们平时都说Python爬虫，其实这里可能有个误解，爬虫并不是Python独有的，可以做爬虫的语言有很多例如：PHP,JAVA,C#,C++,Python，选择Python做爬虫是因为Python相对来说比较简单，而且功能比较齐全。

首先我们需要下载python，我下载的是官方最新的版本 3.8.3
其次我们需要一个运行Python的环境，我用的是pychram

在这里插入图片描述

也可以从官方下载，
我们还需要一些库来支持爬虫的运行（有些库Python可能自带了）

在这里插入图片描述

差不多就是这几个库了，良心的我已经在后面写好注释了

在这里插入图片描述

（爬虫运行过程中，不一定就只需要上面几个库，看你爬虫的一个具体写法了，反正需要库的话我们可以直接在setting里面安装）

爬虫项目讲解

我做的是爬取豆瓣评分电影Top250的爬虫代码

我们要爬取的就是这个网站：https://movie.douban.com/top250

这边我已经爬取完毕，给大家看下效果图，我是将爬取到的内容存到xls中

在这里插入图片描述

我们的爬取的内容是：电影详情链接，图片链接，影片中文名，影片外国名，评分，评价数，概况，相关信息。

代码分析

先把代码发放上来，然后我根据代码逐步解析

在这里插入图片描述

下面我根据代码，从下到下给大家讲解分析一遍

– codeing = utf-8 --，开头的这个是设置编码为utf-8 ，写在开头，防止乱码。

然后下面 import就是导入一些库，做做准备工作，（sqlite3这库我并没有用到所以我注释起来了）。

下面一些find开头的是正则表达式，是用来我们筛选信息的。

（正则表达式用到 re 库，也可以不用正则表达式，不是必须的。）
大体流程分三步走：

1. 爬取网页
2.逐一解析数据
3. 保存网页

先分析流程1，爬取网页，baseurl 就是我们要爬虫的网页网址，往下走，调用了 getData（baseurl) ,
我们来看 getData方法

在这里插入图片描述

这段大家可能看不懂，其实是这样的：
因为电影评分Top250，每个页面只显示25个，所以我们需要访问页面10次，25*10=250。

baseurl = "https://movie.douban.com/top250?start="

我们只要在baseurl后面加上数字就会跳到相应页面，比如i=1时

https://movie.douban.com/top250?start=25

我放上超链接，大家可以点击看看会跳到哪个页面，毕竟实践出真知。

在这里插入图片描述

然后又调用了askURL来请求网页，这个方法是请求网页的主体方法，
怕大家翻页麻烦，我再把代码复制一遍，让大家有个直观感受

在这里插入图片描述

这个askURL就是用来向网页发送请求用的，那么这里就有老铁问了，为什么这里要写个head呢？

在这里插入图片描述

这是因为我们要是不写的话，访问某些网站的时候会被认出来爬虫，显示错误，错误代码

418

这是一个梗大家可以百度下，

在这里插入图片描述

我是一个茶壶

所以我们需要 “装” ，装成我们就是一个浏览器，这样就不会被认出来，
伪装一个身份。

在这里插入图片描述

来，我们继续往下走，

html = response.read().decode("utf-8")

这段就是我们读取网页的内容，设置编码为utf-8，目的就是为了防止乱码。
访问成功后，来到了第二个流程：

2.逐一解析数据

解析数据这里我们用到了 BeautifulSoup（靓汤）这个库，这个库是几乎是做爬虫必备的库，无论你是什么写法。

下面就开始查找符合我们要求的数据，用BeautifulSoup的方法以及 re 库的
正则表达式去匹配，

在这里插入图片描述

匹配到符合我们要求的数据，然后存进 ==dataList ，所以 dataList ==里就存放着我们需要的数据了。

最后一个流程：

3.保存数据

# 3.保存数据
saveData(datalist,savepath)      #2种存储方式可以只选择一种
# saveData2DB(datalist,dbpath)

保存数据可以选择保存到 xls 表，需要（xlwt库支持）
也可以选择保存数据到 sqlite数据库，需要（sqlite3库支持）

这里我选择保存到 xls 表，这也是为什么我注释了一大堆代码，注释的部分就是保存到 sqlite 数据库的代码，二者选一就行

保存到 xls 的主体方法是 saveData （下面的saveData2DB方法是保存到sqlite数据库）：

在这里插入图片描述

创建工作表，创列（会在当前目录下创建），

在这里插入图片描述

然后把 dataList里的数据一条条存进去就行。

最后运作成功后，会在左侧生成这么一个文件

在这里插入图片描述

打开之后看看是不是我们想要的结果

在这里插入图片描述

成了，成了！

在这里插入图片描述

如果我们需要以数据库方式存储，可以先生成 xls 文件，再把 xls 文件导入数据库中，就可以啦

本篇文章讲解到这里啦，我感觉我讲的还算细致吧，爬虫我也是最近才可以学，对这个比较有兴趣，我肯定有讲的不好的地方，欢迎各位大佬来指正我。

我也在不断的学习中，学到新东西第一时间会跟大家分享
大家可以动动小手，点波关注不迷路。

如果关于本篇文章有不懂的地方，欢迎大家下面留言，我知道的都会给大家一一解答。

-END-

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、机器学习、自动化测试带你从零基础系统性的学好Python！

👉[CSDN大礼包：《python安装工具&全套学习资料》免费分享]（安全链接，放心点击）

👉Python学习大礼包👈

在这里插入图片描述

👉Python学习路线汇总👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取哈）
在这里插入图片描述

👉Python必备开发工具👈

在这里插入图片描述

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉Python实战案例👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python书籍和视频合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

👉Python面试刷题👈

👉Python副业兼职路线👈

在这里插入图片描述

这份完整版的Python全套学习资料已经上传CSDN，朋友们如果需要可以点击链接免费领取或者保存图片到wx扫描二v码免费领取 【保证100%免费】

👉[CSDN大礼包：《python安装工具&全套学习资料》免费分享]（安全链接，放心点击）

金汤肥牛面.

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫超详细讲解（零基础入门，老年人都看的懂）

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
复制链接

扫一扫

Python爬虫超详细讲解（零基础入门，老年人都看的懂）

爬虫

为什么我们要使用爬虫

爬虫准备工作

爬虫项目讲解

代码分析

下面我根据代码，从下到下给大家讲解分析一遍

418

我是一个茶壶

成了，成了！

👉Python学习大礼包👈

👉Python学习路线汇总👈

👉Python必备开发工具👈

👉Python实战案例👈

👉Python书籍和视频合集👈

👉Python面试刷题👈

👉Python副业兼职路线👈

“相关推荐”对你有帮助么？