python正则表达式整理

最新推荐文章于 2024-09-21 17:56:48 发布

weixin_30359021

最新推荐文章于 2024-09-21 17:56:48 发布

阅读量71

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/1211-1010/p/11168932.html

版权

正则表达式在处理字符串时很大的作用，爬虫中也经常用到，下面就将一些常用正则表达式做一整理记录，方便以后查看。

^d 表示匹配以d开头的字符串

. 表示匹配任意字符串

* 表示前面的字符串可以重复多遍

$ 表示结尾字符串，比如以3结尾的字符串可以表示为：3$

？表示非贪婪模式，正则表达式默认为贪婪模式，贪婪模式下是反向匹配，即从后向前匹配。非贪婪模式正好相反

+ 限制字符出现次数，至少出现一次

{} 限制字符出现次数

　　{1} 字符出现一次 {2}出现两次以此类推

　　{1，}字符至少出现一次。其他相同格式，以此类推

{1,3}字符至少出现一次，做多出现3次。其他相同格式以此类推

| 表示为或的意思

() 表示匹配模式，只匹配（）里面，匹配时从最外层（）开始

\s 匹配空格 \s+ 匹配多个空格

\S 匹配除空格以外的任意字符 \S+ 表示匹配多个非空字符

\w 匹配a-z A-Z 0-9以及下划线中的任意字符

\W 匹配出a-z A-Z 0-9以及下划线以外的任意字符

[] 匹配括号中出现的任意字符

　　[1357] 表示可以匹配1,3,5,7中任意一个字符

　　[^] 表示取反，非 [^1]表示可以匹配除1以外的任意字符

[A-Za-z0-9] 表范围，[A-Z]表示可以取A-Z中的任意一个字符 (1[34578][0-9]{9}) 表示字符串以1开头，

　　第二个字符为3,4,5,7,8中任意一个字符，[0-9]表示0-9中任意一个数字，{9}表示重复[0-9]9次

[\u4E00-\u9FA5] 匹配汉字。默认匹配一个汉字

　　　　　　　　 [\u4E00-\u9FA5] + 可匹配多个汉字

\d 匹配数字 \d+ 代表匹配连续的数字　　\d{4}代表匹配四位数字

以上为常见正则表达式整理，不全的地方后面会继续追加。

转载于:https://www.cnblogs.com/1211-1010/p/11168932.html

weixin_30359021

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。