“爱”的宣言:本系列的目的是帮助一些零基础小白能够快速上手爬虫。因为作者本人也是一个刚入门不久的零基础小白,深知自学(乱学 )的痛苦。本系列的知识可能不会像一些大佬的文章那般系统,但仍希望能帮助到一些小伙伴,同时,也希望能结识一些小伙伴。
本系列可能会有多篇,为了方便您的阅读,下面给出各文章之间的超链接传送门。
系列文章链接(未完待续):
PyCharm自定义背景图片、更换主题
面向零基础小白的爬虫系列(一):字符串
面向零基础小白的爬虫系列(二):列表与元组
面向零基础小白的爬虫系列(三):字典
面向零基础小白的爬虫系列(四):库
面向零基础小白的爬虫系列(五):循环语句与条件语句
面向零基础小白的爬虫系列(七):Beautiful Soup(美丽的汤)
一、前言
众所周知,爬虫的基本思路为:
①发送请求
②获取响应
③解析响应、定位并提取目标数据
④保存数据
我在刚开始学的时候,第三步是花费时间最多的地方。学习了一段时间,学了四种方法,分别是正则表达式、Beautiful Soup 、Xpath和PyQuery。接下来这几篇文章(包括这篇但不限于这篇文章),我会来逐步来分享我对这几种方法的理解。
在渐渐熟练这四种方法之后,我个人的习惯是优先考虑Beautiful Soup 、Xpath,Xpath为第一考虑对象,我感觉它是最方便的,嘿嘿嘿。
那么今天就先来看看,正则表达式。
本系列文章,代码运行展示,将使用PyCharn进行运行。
二、正则表达式
先给大家安利一篇文章吧,《Python正则表达式,这一篇就够了!》
这篇文章也是我在初学正则表达式时,比较受益的一篇文章。
如果是第一天学习的小白,可能看起来会有点摸不着头脑,那么我在这里就带你看一下简化版,并且用一个小实例,带你快速上手。
1、正则表达式常见符号及其作用
点 '.'
还是比较厉害的,可以匹配除了换行符以外的任何一个字符,如,中文、英文、数字、标点符号等等。
怎么理解替代作用呢?
如:
text = '输出python字符'
这里的python
就可以使用6个点替代,即'输出......字符'
同理,英文、数字、标点符号等等也是这般实现替代的
看到这里,你可能会想,这样的目的是啥呀,有啥用啊。刚开始学可能就会这样想,我也这样想过。因为这是例子,是为了方便我们理解,如果是一个爬虫项目呢,解析出来的网页,那里的数据,可不是自己一点一点输入就能解决的。
星号‘*’
也是很了不得的呢,它可以表示它前面的一个子表达式0次到无数次。
如:
text = '你真的好帅帅帅帅帅'
这里有五个帅字,那如果使用‘*’来表示呢?
'你真的好帅*'
即使后面还有一百个帅字,可能形容你的程度都还不够,依然可以只使用*
就可以表示啦。
如果把上面的'.'
和'*'
组合在一起,会发生什么呢?
magic!
'.'
可以替换几乎任意的字符'*'
可以表示前面那个子表达式0到无数次,那么我们可不可以认为'.*'
能够表达几乎任意长度的任意字符呢?我感觉是可以的!
如:
text = '你真的好nm"handsome"1+1=2帅'
这个够离谱了吧
但它就可以简单表示为:
'你真的好.*帅'
'?'
的作用与‘*’
的作用相似,但是它只能表示它前面那个子表达式0次或1次。
如:
text_1 = '你好帅帅呀'
text_2 = '你好帅帅帅呀'
'你好帅?呀'
这时候能和text-1成功匹配,也就是说,能够表示text_1,而不能匹配text_2,这也就是‘?’
与‘*’
的小区别。
这时候看,是不是感觉'?'
比较菜呀,感觉活都要被抢了,实则不然,它与‘*’
各有千秋。
贪婪匹配('.*'
):贪婪,顾名思义,它会尽可能多的匹配满足条件的内容
非贪婪匹配('.*?'
):与贪婪相反,它会可能少的匹配满足条件的内容
下面看一下例子(如果函数或者一些字符看不懂,没事的,主要看贪婪与非贪婪的区别)
import re
text = '你好 521 帅呀'
res_1 = re.match('你好.*(\d+).*帅呀', text)
res_2 = re.match('你好.*?(\d+).*帅呀', text)
print('这是贪婪模式的结果:', res_1.group(1))
print('这是非贪婪模式的结果:', res_2.group(1))
输出:
这是贪婪模式: 1
这是非贪婪模式: 521
注意:正则表达式,内容两端有''
2、re模块中的findall函数
re模块是python的标准库,不需要额外进行安装。
findall函数的作用是把符合条件的数据全部匹配,返回列表,注意嗷,返回的是一个列表嗷,既然是列表,那么批量获取,最简单暴力的方法就是进行遍历。
findall函数的结构:re.findall(pattern,string,flags=0)
pattern
表示正则表达式,string
表示需要进行匹配的字符串,flags
表示正则表达式的修饰符。
常见的修饰词:
修饰符 | 作用 |
---|---|
re.I | 使匹配对大小写不敏感 |
re.S | 使 . 匹配包括换行在内的所有字符 |
3、实战对抗
开始之前,需要导入一个第三方库requests
打开cmd,输入 pip install requests
实战对抗
首先,打开需要进行爬取的目标网页:4k汽车壁纸
接着,导入需要用到的库
import requests
import re
然后进行爬虫第一步,发送请求
url = 'https://pic.netbian.com/4kqiche/'
response = requests.get(url=url)
print(response)
响应为200,说明允许访问。
接着进行爬虫第二步:获取响应
得到的这个是啥呀,好多啊。
其实就是这个页面的源代码。
这样我们就可以顺利地进行爬虫第三步:定位并提取数据
我们今天用正则表达式来解决它。
我发现这些链接就是汽车图片对应的链接。那么就是要提取这些链接。
那我就从节点开始动手,先把这些链接所在的节点提取出来。
右击检查,即可发现一个链接,顺着节点写就好啦。
构造正则表达式
'<div.*?<div.*?<div.*?<u1.*?<li.*?<a.*?<img.*?src="(/up.*?jpg)"'
进行验证
import requests
import re
url = 'https://pic.netbian.com/4kqiche/'
response = requests.get(url=url)
text= response.text
images = re.findall('<div.*?<div.*?<div.*?<ul.*?<li.*?<a.*?<img.*?src="(/up.*?jpg)"', text, re.S)
# 进行遍历
for image in images:
print(image)
只有一个结果,为啥呀,因为我门定位的太准确,精确定位到这一个,如果需要获取很多,就要对正则表达式进行修改。
'<li.*?<a.*?<img.*?src="(/up.*?jpg)"'
把li节点之前的去掉就好了,再来看一下结果
全部拿到了。
爬虫第四步:保存结果 ,可以看我的第一个爬虫项目呀,也是这个页面,更有详细教你怎么爬取高清图和多页爬取,当然,使用的也是正则表达式哟。
文章链接:《正则表达式–简单爬虫实例–美女图片篇》
三、Blogger’s speech
如有不足,还请大佬评论区留言或私信我,我会进行补充。
感谢您的支持,希望可以点赞,关注,收藏,一键三连哟。
作者:远方的星
CSDN:https://blog.csdn.net/qq_44921056
腾讯云:https://cloud.tencent.com/developer/column/91164
本文仅用于交流学习,未经作者允许,禁止转载,更勿做其他用途,违者必究。