python爬虫（爬游民星空壁纸）_图片损坏问题

最新推荐文章于 2023-03-30 10:09:09 发布

Allennnn_

最新推荐文章于 2023-03-30 10:09:09 发布

阅读量3k

点赞数 1

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/Alex_X_Jane/article/details/51056987

版权

Python爬虫专栏收录该内容

8 篇文章 0 订阅

订阅专栏

__author__ = 'AllenMinD'
import requests,urllib
from bs4 import BeautifulSoup

ans = 1

for page in range(1,12):
    if page==1:
        url = 'http://www.gamersky.com/ent/201603/730123.shtml'
    else:
        url = 'http://www.gamersky.com/ent/201603/730123_'+str(page)+'.shtml'
    header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.109 Safari/537.36'
              ,'Cookie':'BIDUPSID=5B700B9ED7BFDE99E48407F4C10FABAA; BAIDUID=05F28292EA8DA5A589737ACF26DD1B31:FG=1; PSTM=1456985091; BDUSS=1hczlEYmxKckJPbU9CRDE0R1hQcWtOOWJIQ2JQY1BRckQ2OW9kdWNnfmhTUjVYQVFBQUFBJCQAAAAAAAAAAAEAAABHG40~AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAOG89lbhvPZWaU'}
    source_code = requests.get(url,headers = header)
    plain_text = source_code.text

    soup = BeautifulSoup(plain_text,'lxml')

#    print soup.select('p > a')

    download_link = []
    for pic_tag in soup.select('p > a'):
        #print pic_tag.get('href')[52:]
        download_link.append(pic_tag.get('href')[52:])#*********重点*********

    folder_path = "D:/spider_things/2016.4.4/bizhi/"

    for item in download_link:
        urllib.urlretrieve(item , folder_path + str(ans) + '.jpg')
        print 'You have downloaded',ans,'picture(s)!~'
        ans = ans+1

前些天想做下游民星空壁纸的爬去，但是一开始想平常那样爬取时，最终下载下来的图片会损坏：