python爬虫:下载百度贴吧图片(多页)学习笔记

# -*- coding: utf-8 -*-
"""
Created on Sat Oct 22 11:49:43 2016


@author: hhxsym
"""


import os
import requests
from bs4 import BeautifulSoup
import urllib #用于下载图形




inpath="C:\\Users\\hhxsym\\Desktop\\课程群Python爬虫"
inpath = unicode(inpath , "utf8") 
os.chdir(inpath)  #不做编码转换后,中文路径无法打开,更改




#实现单页访问
def download_jpg(url):
    response = requests.get(url) #请求网页,获得响应的内容
    print response.status_code  #打印状态码
    
    soup = BeautifulSoup(response.text, 'lxml') #解析响应的内容 BeautifulSoup(响应变量,解析器)
    #print soup
    urls = soup.find_all('img', 'BDE_Image') # find_all方法,基于CSS返回到元素,获取图片的地址, soup.find_all(标签, CSS样式)
    #print urls
    for url in urls:
        url=url.get('src')  #通过标签获取到元素,用get方法,直接获取解析标签对应的属性值
        print url
        urllib.urlretrieve(url,'%s' % url.split('/')[-1]) #下载图片,命名
        urllib.urlretrieve(url,'img/%s' % url.split('/')[-1]) #下载图片,命名,放到指定文件夹,注:img文件夹必须提前创建
    


#实现多页访问
def get_all_jpg(url, pages):
    for page in range(1, pages+1):
        new_url=url + '?pn=' + str(page) #构造地址
        download_jpg(new_url)
        




if __name__ == '__main__':
    #download_jpg("http://tieba.baidu.com/p/3797994694?pn=1")
    get_all_jpg("http://tieba.baidu.com/p/3797994694", 5)


  


  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值