关于正则表达式里\n与\r的吐槽。

还是用Scrapy写的一个小爬虫,由于xpath有点忘记了而且对于复杂网页和有JS写的表现部分,Xpath很无力,所以我还是习惯用正则来抓内容。


好吧,遇到了下面这样一种情形的时候:

</div></div>
<table class="case" border="0" cellspacing="0" cellpadding="0" ><tr><span style="color:#ff0000;"><strong><td></strong></span>

  我麦的电动车呢,谁给上一下图,!<br /><small class="f666">发自手机虎扑 m.hupu.com</small>                                                                                         

<strong><span style="color:#ff0000;"></td></span></strong></tr></table>

<div class="reply-sponsor-users"></div>

    <div class="liangShare"> </div>
</div><div class="clearfix"></div></div>
我要提取中间的那部分内容,也就是<td>与</td>标签中间的部分。

好吧,看着蛮简单的,那么问题来了。

首先,这两个标签的内容中间有可能出现\n而且是非常可能,所以简单的用.*来匹配中间部分并不可行。

然后,这个HTML里的内容,从这个标签开始,换了两行,所以我自然而然的觉得是两个\n\n,所以我的大部分努力的正则大概是这种新式的:


r'''<td>\n\n((?:\n|.)*?)\n\n</td>'''


由于是在Python中,采用了分组策略,通道了分组忽略的方法,也用了非贪婪模式进行重复匹配。怎么样,听上去已经很不错了是吧?

我也是这么觉得的。

而且我直接把网页内容赋值给一个字符串变量,用这种方式在命令行里测试hao无问题!


然而在整个程序里,就是什么都采不到!!!我用了N种方式反复测试。

最后实在没办法,只能一点一点测试在程序里的正则,最后发现的问题是,

标签后面并不是 \n\n 而是\r\n。。。。。。


去找在正则表达式的语法,在官方描述里,\n是换行符,\r是回车符......

所以说,是眼睛欺骗了我。在看网页源代码里,并不能分辨。

真的是非常坑爹......好吧,现在可以没问题地跑下来了。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值