我们写一个爬虫, 主要还是要提取网页中的文本信息, 而正则表达式可以很容易的完成这一任务, 这节, 我们来学习一些基本的正则表达式用法, 在以后的章节中, 会在适当的时候插入一些高级用法。
在python中, 使用正则表达式需要引入re包
1. 匹配普通字符.
任何数字, 字母, 标点符号等, 都可以直接匹配到
1 import re 2 3 # 匹配数字构成的字串123 4 string = '012345' 5 p = re.search('123', string)
我们写一个爬虫, 主要还是要提取网页中的文本信息, 而正则表达式可以很容易的完成这一任务, 这节, 我们来学习一些基本的正则表达式用法, 在以后的章节中, 会在适当的时候插入一些高级用法。
在python中, 使用正则表达式需要引入re包
1. 匹配普通字符.
任何数字, 字母, 标点符号等, 都可以直接匹配到
1 import re 2 3 # 匹配数字构成的字串123 4 string = '012345' 5 p = re.search('123', string)