爬取百度贴吧图片的小爬虫

#本来想要爬取百度图片的图片,但是发现那些图片都是js加载的,具体怎么爬取现在还不能搞清。。。。,所以就选择了百度贴吧里面的图片 
#
!/usr/bin/python #coding: utf-8 # # name: download images from baiduTieba # #author: Hacker_MJW # #date: 2014-02-15 # import urllib import urllib2 import re class reptile: def __init__(self, url): self.url = url user_agent = "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)" self.headers = {'User-Agent': user_agent} def buil_re(self): self.p = re.compile("<img.*?class=\"BDE_Image\"\s*src=\"(.*?)\".*?>") def open_page(self): self.req = urllib2.Request(url=self.url, headers=self.headers ) self.page = urllib2.urlopen(self.req).read().replace('\n', '') def find(self): self.img = self.p.findall(self.page) def cbk(self): self.per = 100.0 * a * b /c if self.per > 100: self.per = 100 print '%.2f%%' % self.per def download(self, total): #这里只爬取了一页,如果需要爬去多页的话,找出下一页的链接即可 n_count = 0 print self.img for img in self.img: urllib.urlretrieve(img, "photos\%s.jpg"%str(n_count)) n_count = n_count + 1 if n_count > total: break print "%s张图片下载完成" % str(total) if __name__ == '__main__': img = reptile('http://tieba.baidu.com/p/2791466984') #这个网址是我自己选的,大家可以换成美女的网址,^_^ img.buil_re() img.open_page() img.find() img.download(50)

 

转载于:https://www.cnblogs.com/MyselfDancing/p/3551173.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值