python爬虫(一) 正则表达式

这篇博客介绍了Python中正则表达式的使用,包括基础用法和进阶技巧,通过实例展示了如何在字符串中查找数字,并解释了各种符号的含义,如用于匹配数字,用于匹配任意字符等。文章还提及了在爬虫中正则表达式的重要性。
摘要由CSDN通过智能技术生成

先上实例吧

如我想在字符串“dsaasdasdqwe33423weasdasdasds”中找出数字部分

import re

String='dsaasdasdqwe33423weasdasdasds'
key=r'[0-9]+'

f_a=re.compile(key)
f_all=f_a.findall(String)
for i in f_all:
	print(i)

运行结果:




注意:这里 import re 导入python的正则库 如果import re 出错 应去cmd回车 输入pip install re
这里不多讲re的用法 它有findall还有其它


这里的key=r'[0-9]+' 就是今天的主角 正则表达式

在正则表达式中,如果直接给出字符,就是精确匹配。用\d可以匹配一个数字,\w可以匹配一个字母或数字,所以:

  • '00\d'可以匹配'007',但无法匹配'00A'

  • '\d\d\d'可以匹配'010'

  • '\w\w\d'可以匹配'py3'

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
. 匹配除换行符以外的所有字符 x? 匹配 0 次或一次 x 字符串 x* 匹配 0 次或多次 x 字符串,但匹配可能的最少次数 x+ 匹配 1 次或多次 x 字符串,但匹配可能的最少次数 .* 匹配 0 次或一次的任何字符 .+ 匹配 1 次或多次的任何字符 {m} 匹配刚好是 m 个 的指定字符串 {m,n} 匹配在 m个 以上 n个 以下 的指定字符串 {m,} 匹配 m个 以上 的指定字符串 [] 匹配符合 [] 内的字符 [^] 匹配不符合 [] 内的字符 [0-9] 匹配所有数字字符 [a-z] 匹配所有小写字母字符 [^0-9] 匹配所有非数字字符 [^a-z] 匹配所有非小写字母字符 ^ 匹配字符开头的字符 $ 匹配字符结尾的字符 \d 匹配一个数字的字符,和 [0-9] 语法一样 \d+ 匹配多个数字字符串,和 [0-9]+ 语法一样 \D 非数字,其他同 \d \D+ 非数字,其他同 \d+ \w 英文字母或数字的字符串,和 [a-zA-Z0-9] 语法一样 \w+ 和 [a-zA-Z0-9]+ 语法一样 \W 非英文字母或数字的字符串,和 [^a-zA-Z0-9] 语法一样 \W+ 和 [^a-zA-Z0-9]+ 语法一样 \s 空格,和 [\n\t\r\f] 语法一样 \s+ 和 [\n\t\r\f]+ 一样 \S 非空格,和 [^\n\t\r\f] 语法一样 \S+ 和 [^\n\t\r\f]+ 语法一样 \b 匹配以英文字母,数字为边界的字符串 \B 匹配不以英文字母,数值为边界的字符串 a|b|c 匹配符合a字符 或是b字符 或是c字符 的字符串 abc 匹配含有 abc 的字符串 (pattern) () 这个符号会记住所找寻到的字符串,是一个很实用的语法。第一个 () 内所找到的字符串变成 $1 这个变量或是 \1 变量,第二个 () 内所找到的字符串变成 $2 这个变量或是 \2 变量,以此类推下去。 /pattern/i i 这个参数表示忽略英文大小写,也就是在匹配字符串的时候,不考虑英文的大小写问题。 \ 如果要在 pattern 模式中找寻一个特殊字符,如 "*",则要在这个字符前加上 \ 符号,这样才会让特殊字符失效
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值