关于正则表达中换行字符串处理,求大神指导

如图,在爬虫中: time = re.findall(p_time,data,re.S)获取了10个,如果但print出来的数据带有/t/n等换行字符串。如果不使用re.S,只能获取8个。经过效验发现其中两个带了换行字符串:

如:<span class="fgray_time">
                                            
                                                观点地产网
                                            
                                        3小时前</span>

p_time = '<span class="fgray_time">(.*?)</span>'
p_href ='<a href=(.*?)target="_blank">.*?<font color="red">阿里巴巴</font>.*?</a>'
p_title ='<a href=".*?" target=(.*?)</font>(.*?)</a>'

import re
title = re.findall(p_title,data,re.S)
time = re.findall(p_time,data,re.S)
href = re.findall(p_href,data,re.S)

print(title)
print(time)
print(href)

想请问如何精确获取数据且没有各种符号

----------------------------------------------------

使用了:((?![\t\n]).*?) ,负向断言。

漏了4个数据,长度应该为6

  • 7
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值