本次我们讲讲re正则表达式。那讲到re正则表达式的话,难免就需要跟其他的解析库做下对比。如下表
lxml库、正则表达式和BeautifulSoup库对比
工具 | 解析速度 | 难度 |
---|---|---|
BeautifulSoup4 | 最慢 | 最简单 |
lxml | 快 | 简单 |
正则表达式 | 最快 | 难 |
大家可以了解一下大概情况。我对这表的理解是,lxml库速度快有部分原因是因为c语言编写的,而BeautifulSoup4库是第三方库,慢也可以理解,毕竟三种方式它的难度是最低的。re正则表达式呢,有多难呢:正则表达式可能你刚写完,出去吃个饭回来,有可能你就要斟酌斟酌自己刚刚为何这样写这式子。。。(雾)
re正则表达式语法总结
表达式 | 语法 |
---|---|
. (点号) | 匹配任意字符(除了换行符\n) |
\d | 匹配任意数字 |
\D | 匹配任意非数字 |
\s | 匹配空白字符(\n,\t,\r,空格) |
\w | 匹配a-z,A-Z,数字和下划线 |
\W | 跟\w相反 |
[] | 匹配括号中满足的字 |