学习爬虫两天,基本都是跟着 静觅 » Python爬虫学习系列教程 分享的代码和教程学习,由于安装版本不同,原作者的是python 2.7,我的则是python 3.4
总的来说就是碰到一些不兼容的用法,也根据别人的提供的办法基本解决掉了,今天碰到的则是在练习 爬取糗事百科段子时的问题,一直没解决掉,个人认为
是正则匹配的问题,贴上部分代码,以供参考,晚上回宿舍再找答案。
pattern = re.compile('<div.*?author clearfix>.*?<a.*?<img.*?>.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?content>(.*?)<!--(.*?)-->.*?</div>(.*?)<div class=stats-vote>.*?number>(.*?)</i>.*?number>(.*?)</i>',re.S) items = re.findall(pattern, content) print(items) for item in items: haveImg = re.search("img", item[3]) from datetime import datetime if not haveImg: print(item[0],item[1], item[2], item[4],item[5])
URL = 'http://www.qiushibaike.com/hot/page/'
最终的结果是没报错,但是也没输出任何结果,一片空白。
后面自己在其中添加了 print (items) 这行代码,是想输出初步正则匹配后的内容,结果输出 [ ]
有点不理解,正则表达式也是根据最新的页面代码做出一些更改,但是貌似没有效果,继续学习。