使用python写糗事百科的爬虫

最近看了一些利用python来写一些网站的爬虫以自动下载和排版的文章,于是自己动手也写一个,网络上很多的版本都无法正常运行,因为糗事百科现在不能直接使用url去使用爬虫了,必须要伪装成浏览器来下载。所以必须要加工一下现有的版本才行。

   经过一下午的查看资料和手动测试,终于实现了,截图为证:

wKiom1MlfBXDC84vAAB33wc5CQI752.png

 

下面是直接在python GUI/IDLE里运行的结果

wKioL1MlfIrjyIA4AAD1-GQJEJ8809.png

 

可以直接运行的代码,在http://down.51cto.com/data/1102905,感兴趣可以来尝试看看,以下是一个最简单的直接抓取整个糗事百科的所有源代码的demo,提供下载的版本已经使用正则表达式做过了精细的处理,效果如上图。

# python 2.7.5
import urllib2
myUrl = "http://m.qiushibaike.com/hot/page/"
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36 LBBROWSER')
opener = urllib2.build_opener()
opener.addheaders = [headers]
data = opener.open(myUrl).read()
print data

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值