小白都能看懂的简单爬虫入门案例剖析(爬虫入门看它就够了

本文介绍了网络爬虫的基本概念,以Python和requests模块为例,详细解释了爬虫的工作原理,并通过实例演示如何编写一个抓取百度图片中皮卡丘图片的爬虫。作者还分享了爬虫所需的关键技术,如代码解析和正则表达式应用。
摘要由CSDN通过智能技术生成

Hello!大家好,我是努力赚钱买生发水的灰小猿,很多学习了Python的小伙伴都希望可以拥有一条属于自己的爬虫,所以今天大灰狼就来和小伙伴们分享一下简单的爬虫程序编写。

允许我在这里为小伙伴们卖一下关子哈。

什么是网络爬虫?

========

所谓网络爬虫,简单来说,就是通过程序来打开特定的网页并且爬取网页上存在的某些信息。想象一下,把一个网页比作一片田地的话,爬虫就是生活在这片田地里,从田头爬到田尾,并且只捕食这片田地上某一类食物的昆虫。哈哈,比喻有些糙,但网络爬虫的实际作用也就跟这个差不多啦。

想深入了解的小伙伴也可以看我的这篇文章“Python一分钟带你探秘不为人知的网络昆虫!”啦!

爬虫的原理是什么?

=========

那可能有小伙伴就问了,爬虫程序是如何工作的呢?

举个栗子:

我们所看到的所有的网页都是由特定的代码组成的,这些代码中涵盖了这个网页中所存在的所有信息,在我们打开某一个网页的时候,按F12键就可以看到这个网页的代码了,我们以百度图片搜索皮卡丘的网页为例,按F12后,就可以看到如下的涵盖整个网页所有内容的代码了。

以一条爬取“皮卡丘图片”的爬虫为例,我们的爬虫要爬取这个网页上所有的皮卡丘图片,所以我们的爬虫要做的就是,找到这个网页的代码中包括皮卡丘图片的链接,并且将这个链接下的图片下载。

所以爬虫的工作原理就是从网页的代码中找到并提取出特定的代码,**就好比从一个很长的字符串中找到特定格式的字符串是一样的,**对这一块知识感兴趣的小伙伴也可以阅读我的这篇文章“Python实战之特定文本提取,挑战高效办公的第一步”,

了解了以上两点之后,就是如何去编写这样一条爬虫了。

Python爬虫常用的第三方模块有urllib2和requests,大灰狼个人认为urllib2模块要比requests模块复杂些,所以在这里以requests模块为例来编写爬虫程序。

以爬取百度皮卡丘图片为例。

根据爬虫的原理,我们的爬虫程序要做的依次是:

  1. 获取百度图片中“皮卡丘图片”的网页链接

  2. 获取该网页的全部代码

  3. 查找代码中图片的链接

  4. 根据图片链接写出通用的正则表达式

  5. 通过设定的正则表达式匹配代码中所有符合要求的图片链接

  6. 逐个打开图片链接并将图片下载

接下来大灰狼就根据上面的步骤为大家分享一下这条爬虫的编写:

1、获取百度图片中“皮卡丘图片”的网页链接

=====================

首先我们打开百度图片的网页链接https://image.baidu.com/

之后再打开关键字搜索“皮卡丘”后的链接

https://image.baidu.com/search/indextn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf8&fm=result&pos=history&word=%E7%9A%AE%E5%8D%A1%E4%B8%98

对比一下,剔除多余部分,我们就可以得到百度图片关键词搜索的通用链接长这样:http://image.baidu.com/search/index?tn=baiduimage&word=关键字

现在我们的第一步获取百度图片中“皮卡丘图片”的网页链接已经完成了,接下来就是获取该网页的全部代码

2、获取该网页的全部代码

============

这个时候,我们可以先使用requests模块下的get()函数打开该链接

然后通过模块中的text函数获取到网页的文本,也就是全部的代码。

url = “http://image.baidu.com/search/index?tn=baiduimage&word=皮卡丘”

urls = requests.get(url) #打开链接

urltext = urls.text #获取链接文本

3、查找代码中图片的链接

============

这一步我们可以先打开该网页链接,按照最开始大灰狼说的方法按下F12查看该网页的全部代码,然后如果说我们要爬取全部的jpg格式的图片,我们可以再按下Ctrl+F查找特定内容的代码,

如我们在该网页的代码中找到带有jpg的代码,然后找到类似于下图这样的代码,

其中的链接就是我们要获取到内容,我们仔细观察这几个链接就会发现它们的相同之处,也就是它们每一个链接前都会有”OpjURL”:进行提示,最后以”进行结尾,

并且我们拿出其中一个链接

http://dnptystore.qbox.me/p/chapter/attachment/EgfSetvEt-/Eg6s4gEwet2We_MVe_2SeTuDGN95Gb9ugvMq972t5c9heCmc9mH26_b.jpg

进行访问,发现也是可以打开该图片的。

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
img

文末有福利领取哦~

👉一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。img

👉二、Python必备开发工具

img
👉三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
img

👉 四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(文末领读者福利)
img

👉五、Python练习题

检查学习结果。
img

👉六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
img

img

👉因篇幅有限,仅展示部分资料,这份完整版的Python全套学习资料已经上传

一个人可以走的很快,但一群人才能走的更远。如果你从事以下工作或对以下感兴趣,欢迎戳这里加入程序员的圈子,让我们一起学习成长!

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

bs.csdn.net/forums/4304bb5a486d4c3ab8389e65ecb71ac0)

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值