@[TOC]正则表达式正则表达式
-
文本处理
提取电话号码: \d { 11 } 提取以 18或13 开头的手机号 : **(18 | 13)* \ d { 9 } 提取所有王姓同学: **王 \S * 提取所有张姓同学及其电话: **(张\S*) * (\d { 11 } ), $1的电话号码是$2** 重新排版:**(\S *)* (\d {11} ), $1 - $2** 提取所有日期: **\d {4} \S \d {1,2} \S \d {1,2} \S ?** 提取1996年之前出生的学生: (\S *) * 199 [0-5] \S \d {1,2} \S \d {1,2} \S ? 重新排版, (\S *) * (\d {4} ) \S (\d {1,2} ) \S (\d {1,2} ) \S ? ,$1: $2 年 $3 月 $4 日** 把所有 1996 年以前出生的学生出生年份改为 1996: **(\S*) *(199[0-5])\S(\d{1,2})\S(\d{1,2})\S?,$1: 1996 年 $3 月 $4 日** 提取生日: **(\S*) *(\d{4})\S(\d{1,2})\S(\d{1,2})\S?,$1的生日是$3月$4号🎂**
-
代码重构
调整缩进,将四空格缩进重构为八个空格 ^(\s+),$1$1 重构 Python2 的 print 语法为 Python3 的 print() 函数 print *(.*)$,print($1) 所有函数声明添加 func_ 前缀 def *(.*),def func_$1 交换函数声明中的参数位置 def (.*?)\((\w+), *(\w+)\),def $1($3, $2) 为所有函数添加注释模板 def *(.*): ,def $1: """ 函数描述:
-
爬虫
-
提取所有 HTML 标签
<("["]*"|’[’]’|[^’">])> -
清洗所有 HTML 标签
<("["]*"|’[’]’|[^’">])> -
提取所有 URL
(https?|ftp|file)(😕)?/[-A-Za-z0-9+&@#/%?=_|!:,.;]+[-A-Za-z0-9+&@#/%=_|] -
提取所有 JPG 图片的 URL
(https?|ftp|file)(😕)?/[-A-Za-z0-9+&@#/%?=_|!:,.;]+[-A-Za-z0-9+&@#/%=_|].jpg -
提取所有中文和中文标点
[\u4e00-\u9fa5\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]+