python爬虫工程师 成长之路四 正则表达式与Cookie

正则表达式介绍

正则表达式就是描述字符串排列的一种规则,其主要用于字符串的匹配,经常用于找到某一类符合格式要求的数据;在python中我们经常用re模块来实现正则表达式

正则表达式基础

原子

原子是正则表达式最基本的组成单位,正则表达式至少包含一个一个原子,常见的原子有:

  • 普通字符
  • 非打印字符
  • 通用字符
  • 原子表

普通字符
普通字符如数字,字母,下划线等都可以作为原子,yes中含有三个原子:y、e、s

hello中含有he,所以匹配成功
在这里插入图片描述
非打印字符
非打印字符指的是字符串中用于格式控制的符号常见的有\n换行符,\t制表符

a中有换行,所以匹配成功
在这里插入图片描述
通用字符
通用字符:一个原子可以匹配一类字符,人们常用的
常见的通用字符及其意义

字符 意义
\w 匹配任意一个字母、数字或下划线
\W 匹配除字母、数字和下划线以外的任意一个字符
\d 匹配任意一个十进制数
\D 匹配除十进制数以外的任意一个字符
\s 匹配任意一个空白字符
\S 匹配除空白字符以外的任意一个字符
<
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值