python网络爬虫
使用正则表达式解析网页
Python正则表达式
正则表达式是一种可以用于模式匹配和替换的工具,可以让用户通过使用一系列的特殊字符构建匹配模式,然后把匹配模式与待比较字符串或文件进行比较,根据比较对象中是否包含匹配模式,执行相应的程序(替换删除等)。
严格的字符匹配
python只支持re模块进行正则表达式的书写
- 严格的字符匹配示例
查找
import re
example_obj = "1. A small sentence. - 2. Another tiny sentence. "
re.findall('sentence',example_obj)#第一个参数为想要查找的字符,第二个参数为被查找的句子
re.search('sentence',example_obj)
re.sub('sentence','SENTENCE',example_obj)
re.match('.*sentence',example_obj)
import re
string = "1. A small sentence. - 2. Another tiny sentence."
- findall()
该方法一般用的比较多
re.findall('sentence',string)#把所有符合要求的提取出来
>>>['sentence', 'sentence']
- search()
re.search('sentence'