本人在学习爬虫的时候发现写多行正则表达式的时候,如何换行其实很关键,所以下面理清了一下。
一、引号区分
首先python中单双引号是通用的,但是当比如引号内含有单引号,则外面用双引号;若引号内含有双引号,则外面用单引号。如果不这样的话,则需要加入转义字符反斜杠\
my_str = 'I\'m a student'
my_str = "I'm a student" #和上面等效
三引号特殊功能,可以直接打印多行内容,而前面两种情况需要显示输入\n才能换行
(输出结果也会换行)
print("""i
hate
you""")
二、下面区分几个换行方法
1. 每行都用引号,且通过加号连接。通过加号,这里起到的作用是换行输入,而结果仍然是一行字符串的形式
(加号写到次行开头也可)
print('dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'+
'.*?>(.*?)</a.*?star">(.*?)</p.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>'+
'.*?fraction">(.*?)</i>.*?</dd>')
结果:
2. 当字符串外面有括号时,不用换行符可以直接换行输入。每行都加引号,成为一个字符串,输出结果会将其合并为一个,且没有空格和换行。
print('dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
'.*?>(.*?)</a.*?star">(.*?)</p.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>'
'.*?fraction">(.*?)</i>.*?</dd>')
结果:
(方法1和2结果一样,即有括号的时候可以省略加号)
3.反斜杠:在字符串结尾使用,起到换行的作用,输出结果也会换行(中间会多出很多空格)
print('dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a\
.*?>(.*?)</a.*?star">(.*?)</p.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>\
.*?fraction">(.*?)</i>.*?</dd>')
4.三引号:结果也会换行
print('''dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a\
.*?>(.*?)</a.*?star">(.*?)</p.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>\
.*?fraction">(.*?)</i>.*?</dd>''')
方法3和4结果:
(方法3和4结果如上,发现一样)
总结:爬虫写多行正则表达式应该用方法1和方法2,不能用方法3和4。