正则表达式
学习python的第三天 (2020.04.08)
从书中就读得这可能是重点,我也很感兴趣,昨晚想了很多,今天大干一场!干!干!干!
在爬虫的开发中,需要把有用的信息从一大段文本中提取出来。正则表达式是提取信息的方法之一。正则表达式虽然不是最简单的也不是最高效的数据提取方法,但它是最直接的。而且在某些情况下,只有使用正则表达式才能达到目的。学好正则表达式,是开发爬虫的第一步。
今天将掌握如下知识。
1.正则表达式的基本符号
2.如何在python中使用正则表达式
3.正则表达式的提取技巧
4.python读写文本文件和CSV文件
知识梳理
正则表达式的基本符号(任务一)
- 点号 “.” 一个点号可以代替除了换行符以外的任何一个字符,包括但不限于英文字母、汉字、数字、汉字、英文标点符号和中文标点符号。
举例:
例子 替代 ILYOU I.YOU IANDYOU I…YOU 大家找找规律,可以理解为,如果使用点号来表示,中间不同字符可以用点号来表示,有多少个就代替多少
2.星号“*” 一个星号可以表示它前面的一个子表达式(普通字符、另一个或正则表达式符号)0次到无限次。
举例:
例子 替代 我帅 我.*帅 我很帅 我.*帅 我非常帅 我.*帅 .*可以替换任意多个除了换行符以外的任意字符
3.问号“?” 问号表示它前面的子表达式