Python爬虫基础+正则表达式

最新推荐文章于 2021-12-21 19:01:12 发布

JWangwen

最新推荐文章于 2021-12-21 19:01:12 发布

阅读量582

点赞数

文章标签： python 正则表达式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42740834/article/details/105329719

版权

爬取一个网站：

import urllib.request
res=urllib.request.urlopen('https://www.csdn.net/')
print(res.read())

爬虫正则表达式：

1.提取连续的四个数字 /d/d/d/d

import re
m=re.findall('\d\d\d\d','123adfa56sne6742')
print(m)

结果：[‘6742’]

2.已知提取的头部和尾部，提取中间部分，就是加括号（.*）

m=re.findall(r'<div>(.*)</div>','<div>hello</div>')

结果：[‘hello’]

3.有多个<>时，用上述方法只能识别第一个和最后一个，结果如下图：
在这里插入图片描述

m=re.findall(r'<div>(.*)</div>','<div>hello</div><div>world</div>')

这种情况下，括号（）中间要加？

m=re.findall(r'<div>(.*?)</div>','<div>hello</div><div>world</div>')

结果就是[‘hello’, ‘world’]

4.匹配除了换行符之外的字符

m=re.findall('.','sd\nefwe')

结果： [‘s’, ‘d’, ‘e’, ‘f’, ‘w’, ‘e’]

5.匹配[ ]中括号中任意一个字符都可以

m=re.findall('a[bcd]e','jabesadebacesse')

结果：[‘abe’, ‘ade’, ‘ace’]

6.提取数学是\d,非数字的字符是\D

7.提取空格\s,非空格的字符是\S

m=re.findall('\s',' vssf\t s')

结果：[’ ', ‘\t’, ’ ']

8.提取字母和数字\w,非字母和数字\W

m=re.findall('\w','1d*31&%4')

结果：[‘1’, ‘d’, ‘3’, ‘1’, ‘4’]

9.提取字符串 abs

m=re.findall('abs','absdgregabssff')

结果：[‘abs’, ‘abs’]

若只提取开头，在匹配的字符前加 ^

m=re.findall('^abs','absdgregabssff')

结果：[‘abs’]

10.匹配不区分别大小写，加re.I

m=re.findall('abc','abcABCdf',re.I)

结果：[‘abc’, ‘ABC’]

11.匹配0个或1个（后面跟0个或1个某字符）

m=re.findall('ab?','abbbabbba')

结果：[‘ab’, ‘ab’, ‘a’]

12.匹配至少1个

m=re.findall('ab+','abbbabbba')

结果：[‘abbb’, ‘abbb’]

13.匹配至少0个

m=re.findall('ab*','abbbabbba')

结果：[‘abbb’, ‘abbb’, ‘a’]

14.匹配com结尾的邮箱

m=re.findall('\w+@\w+\.com','1115981109@qq.com;1115981109@qq.org')

结果：[‘1115981109@qq.com’]

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。