lxml库和贴吧图片下载案例

# -*- encoding: UTF-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import urllib
import urllib2
from lxml import etree

#找出所有帖子的链接
def loadPage(url):
	"""
	作用:根据url发送请求,获取服务器响应文件
	url:需要爬取的url地址
	"""
	#headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
	request=urllib2.Request(url)
	html=urllib2.urlopen(request).read()
	#解析HTML文档为HTML DOM模型
	content=etree.HTML(html)
	#返回所有匹配成功的列表集合
	link_list=content.xpath('//div[@class="t_con cleafix"]/div/div/div/a/@href')
	for link in link_list:
		#组合为每个帖子的链接
		fulllink="http://tieba.baidu.com"+link
		loadimage(fulllink)

# #取出每个帖子里的每个图片的链接
def loadimage(link):
	headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
	request=urllib2.Request(link,headers=headers)
	html=urllib2.urlopen(request).read()
	#解析HTML文档为HTML DOM模型
	content=etree.HTML(html)
	#返回帖子里的所有图片链接的集合
	link_list=content.xpath('//img[@class="BDE_Image"]/@src')
	for link in link_list:
		print link
		writeimage(link)


#根据图片的url。把图片下载
def writeimage(link):
	headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}
	request=urllib2.Request(link,headers=headers)
	response=urllib2.urlopen(request)
	image=response.read()

	#取出链接的后10位作为文件的名字
	filename=link[-10:]
	#把图片写在文档里面
	with open(filename,"wb") as f:
		f.write(image)
	print "-"*30


def tiebaspider(url,beginpage,endpage):
	"""
	作用:贴吧爬虫调度器,负责组合处理每个页面的url
	url:贴吧url的前部分
	beginpage:起始页
	endpage:终止页
	"""
	for page in range(beginpage,endpage+1):
		pn=str((page-1)*50)
		fullurl=url+"&pn="+str(pn)
		loadPage(fullurl)


if __name__=='__main__':
	print u"输入关键字:",
	kw=raw_input()
	print u"输入起始页",
	beginpage=int(raw_input())
	print u"最后一页:",
	endpage=int(raw_input())
	url="http://tieba.baidu.com/f?"
	key=urllib.urlencode({"kw":kw})
	fullurl=url+key
	tiebaspider(fullurl,beginpage,endpage)
不习惯用正则表达式的可以使用llxml库把html解析成dom,然后用xpath来解析,更方便
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值