P205-下载xkcd漫画

最新推荐文章于 2019-12-21 20:16:44 发布

mengz777

最新推荐文章于 2019-12-21 20:16:44 发布

阅读量254

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/u010460011/article/details/98475774

版权

Python 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

先上代码

import requests,os,bs4

url='https://xkcd.com/'
# print(os.getcwd())
if not os.path.exists('xkcd'):  # 创建存图片的路径
    os.mkdir('xkcd')

while not url.endswith('#'):  # 观察发现网站第一张图的Prev按钮链接是#
    # 1-下载网页
    print('downloading page %s...',url)
    res=requests.get(url)
    res.raise_for_status()
    soup=bs4.BeautifulSoup(res.text, "html.parser")
    # 2-解析，找出图片url
    comicElem=soup.select('div #comic img')  # 这个要观察页面
    if comicElem==[]:
        print('cound not find comic image.')
    else:
        comicUrl=comicElem[0].get('src')
        print('downloading page %s...',comicUrl)
        res=requests.get('https://xkcd.com/'+comicUrl)  # 图片的存储地址
        res.raise_for_status()

    # 3-下载图片
        imageFile=open(os.path.join('xkcd',os.path.basename(comicUrl)),'wb')  # 拿到图片名称并写入设定路径
        for chunk in res.iter_content(100000):
            imageFile.write(chunk)
        imageFile.close()

    # 4-得到Prev按钮的url
        prevLink=soup.select('a[rel="prev"]')[0]
        url='https://xkcd.com/'+prevLink.get('href')

print('Done.')

运行情况：运行了一会儿我主动中断了，没必要爬那么多。。