- 爬虫数据解析与提取
- 正则表达式规则
-
普通字符语法
-
预定义字符集语法
-
数量词语法
贪婪与非贪婪:
作用:控制数量词的匹配个数
用法:默认是使用贪婪模式;在数量词后加上一个?后,则表示使用非贪婪模式
匹配后贪婪与非贪婪模式的匹配个数:
In [35]: re.match("\d+.\d{2,6}", “3.1415926”).group()
Out[35]: ‘3.141592’
In [36]: re.match("\d+.\d{2,6}?", “3.1415926”).group()
Out[36]: ‘3.14’ -
边界匹配语法
\b相当于\w和\W的边界,可以用来匹配出单词;
\B则常用来判断单词的连贯性;
注意:必须使用r,将字符串变为正则模式,因为\b在普通字符串中也是具有含义的。 -
逻辑、分组语法
-
特殊构造语法
- xpath
-
节点选取基本路径表达式:
-
节点选取通配符
-
Xpath谓语条件
所谓"谓语条件