python爬取百度贴吧xpath_13-爬取百度贴吧中的图片(python+xpath)

通过xpath分析页面,爬取页面中的图片:

#_*_ coding: utf-8 _*_

'''

Created on 2018年7月15日

@author: sss

function: 使用xpath还处理爬取的数据

'''

from lxml import etree

import urllib

from pip._vendor.distlib.compat import raw_input

from asyncio.tasks import sleep

class Spider:

def __init__(self):

self.tiebaName = raw_input('请输入需要爬去的贴吧的名字')

self.beginPage = int(raw_input('其输入起始页'))

self.endPage = int(raw_input('请输入终止页'))

self.url = 'http://tieba.baidu.com/f'

self.ua_header = {'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;'}

#图片编号

self.userName = 1

#计算爬取页

def tiebaSpider(self):

for page in range(self.beginPage, self.endPage + 1):

pn = (page - 1) * 50 #url中的page number

word = {'pn': pn, 'kw': self.tiebaName}

word = urllib.parse.urlencode(word ) #转化为url编码格式

myUrl = self.url + '?' + word

#调用页面处理函数load_Page

#并获取页面的所有帖子链接

links = self.loadPage(myUrl)

#开始抓取每个首页所有楼主发帖的标贴连接

def loadPage(self, url ):

req = urllib.request.Request(url, headers=self.ua_header)

html = urllib.request.urlopen(req).read()

#解析html为html文档

selector = etree.HTML(html)

#抓取当前页面的所有帖子的url的后部分,也就是帖子的编号

# http://tieba.baidu.com/p/4884069807里的 “p/4884069807”

links = selector.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')

#links类型为etreeElementString列表

#遍历列表,并且合并成一个帖子地址,调用图片处理函数LoadImage

for link in links:

link = 'http://tieba.baidu.com' + link

self.loadImages(link )

#抓取每个首页中对应的每个楼主的发布详细页面

def loadImages(self, link ):

req = urllib.request.Request(link, headers= self.ua_header)

html = urllib.request.urlopen(req).read()

selector = etree.HTML(html)

#获取这个帖子里的所有图片的src路径

imagesLinks = selector.xpath('//img[@class="BDE_Image"]/@src')

#获取图片路径,下载保存

for imagesLink in imagesLinks:

self.writeImages(imagesLink)

print('完成所有下载!')

#保存页面中的图片

def writeImages(self, imagesLink):

"""

将Images里的二进制内容存入到userNname文件中

"""

print(imagesLink)

#通过图片连接获取图片内容:

images = urllib.request.urlopen(imagesLink).read()

print('正在存储文件%d...' % self.userName)

#写入文件:

with open('./images/' + str(self.userName) + '.png', 'wb') as f: #存入也该项目同级的images文件夹中

f.write(images)

#计数器加一

self.userName += 1

if __name__ == '__main__':

mySpider = Spider()

mySpider.tiebaSpider()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值