当我们使用正则表达式的 findall 函数时,大部分情况如下:
就可以直接使用正则表达式提取目标内容:
如我们需要提取年份:
urls_year= re.findall('<nobr>(.*?)-.*?-.*? .*?:.*?:.*?</nobr>', html)
(其中,html 存储的是爬取的某页的所有源码)
即:将“html“这一页中所有标签的内容提取出来并将年份信息保存到 urls_year 中。
那么问题是,这种情况该怎么处理呢?
urls_year= re.findall('<span class="xmc_b9">
2021-01-26</span>', html)
可以看到将其复制到过去是自动换了行的,手动取消换行会报错。