本文分为两个部分:基础知识和正文,其中基础知识包括什么正则表达式以及Beautifulsoup4的使用。
一、正则表达式
正则表达式用于字符串查找、合法性检查以及作为程序员的工具箱使用。
字符串查找:例如在文本中查找一个子字符串‘python’,或者在一串HTML代码中查找URL地址
合法性检查:例如检查在网站上输入的邮箱地址是否正确
程序员的工具箱:正则表达式模式匹配的起源是Unix的命令grep,它会打印出和给定正则表达式批评为的所有输入行
正则表达式含有三种基本操作:
1.连接操作:例如AB,指定语言{AB}表明这是一个由两个字符组成的字符串,由A和B连接而成
2.或操作:用‘|’表示这个操作,表明指定多种可能的匹配,例如:‘A|B|C’,指定语言{A,B,C},连接操作优先于或操作
3.闭包操作:用‘*’表示这个操作,表明前面的字符重复任意次,例如A*B指定的语言由一个A和0个或多个B的字符串,闭包操作优先于连接操作
总的来说,闭包操作>连接操作>或操作,使用括号‘()’可以改变默认的优先级顺序,例如A(AC|BD)D指定语言是{CACD,CBD}.
使用正则表达式的缩略写法,可以使表达式更加简洁,小巧
1.字符集描述符
‘.’点是一个能够表示任意字符的通配符,例如:A.B表明A连接任意字符再连接B
‘^’表示任意非该括号内的字符,例如:[^AEIOU]
‘-’指定范围,例如[A-Z],