爬虫学习(二)


学习爬虫两天,基本都是跟着 静觅 » Python爬虫学习系列教程 分享的代码和教程学习,由于安装版本不同,原作者的是python 2.7,我的则是python 3.4

总的来说就是碰到一些不兼容的用法,也根据别人的提供的办法基本解决掉了,今天碰到的则是在练习 爬取糗事百科段子时的问题,一直没解决掉,个人认为

是正则匹配的问题,贴上部分代码,以供参考,晚上回宿舍再找答案。


pattern = re.compile('<div.*?author clearfix>.*?<a.*?<img.*?>.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?content>(.*?)<!--(.*?)-->.*?</div>(.*?)<div class=stats-vote>.*?number>(.*?)</i>.*?number>(.*?)</i>',re.S)
items = re.findall(pattern, content)
print(items)
for item in items:
    haveImg = re.search("img", item[3])
    from datetime import datetime
    if not haveImg:
        print(item[0],item[1], item[2], item[4],item[5])

URL = 'http://www.qiushibaike.com/hot/page/'

最终的结果是没报错,但是也没输出任何结果,一片空白。

后面自己在其中添加了 print (items) 这行代码,是想输出初步正则匹配后的内容,结果输出 [ ]  

有点不理解,正则表达式也是根据最新的页面代码做出一些更改,但是貌似没有效果,继续学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值