如图,在爬虫中: time = re.findall(p_time,data,re.S)获取了10个,如果但print出来的数据带有/t/n等换行字符串。如果不使用re.S,只能获取8个。经过效验发现其中两个带了换行字符串:
如:<span class="fgray_time">
观点地产网
3小时前</span>
。
p_time = '<span class="fgray_time">(.*?)</span>'
p_href ='<a href=(.*?)target="_blank">.*?<font color="red">阿里巴巴</font>.*?</a>'
p_title ='<a href=".*?" target=(.*?)</font>(.*?)</a>'
import re
title = re.findall(p_title,data,re.S)
time = re.findall(p_time,data,re.S)
href = re.findall(p_href,data,re.S)
print(title)
print(time)
print(href)
想请问如何精确获取数据且没有各种符号
----------------------------------------------------
使用了:((?![\t\n]).*?)
,负向断言。
漏了4个数据,长度应该为6