在用python做爬虫时,通常需要正则表达式获取到符合要求的数据,本篇将记录一些常用的正则表达式,后续也会不断丰富这篇博客。
# 截获两个字符间的串
# 从 第1回 中截取 1
re.search(r'(?i)(?<=第)((?!第).)*(?=回)','第1回')[0]
# 从 主效汉势力 中截取 汉
re.search(r'(?i)(?<=主效)((?!主效).)*(?=势力)', '主效汉势力')[0]
# 截获最后一个空格之后的内容
# 截获内容为 141-206
re.search(r'\S+$', '曹操 生卒 141-206')[0]
# 将连续的多个空格替换为1个
# 替换后 为 年代 事件 时间
re.sub(r"\s{2,}", " ", '年代 事件 时间')