python爬虫豆瓣图片（三）

最新推荐文章于 2022-10-20 20:29:16 发布

张今天

最新推荐文章于 2022-10-20 20:29:16 发布

阅读量954

点赞数

分类专栏： ——P y t h o n 文章标签： python 豆瓣

本文链接：https://blog.csdn.net/qq_38386316/article/details/78669883

版权

——P y t h o n 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

通过这几天对python入门的接触，以及以前对php、java、c、R的认识，无论这些语言怎么学习，到了一定的深度后，都要一定的缜密、沉稳极强的逻辑创造思维，而目前的学习专业课也好，刷oj题也好，做自己喜欢的事也好，这都可以锻练一个人的解决问题的能力。对一个方向的知识进行超强的把握是有非常有必要的。接下来就开始专攻数学有关的数据分析了,做到能够单独打一场比赛，毕竟……….多谢！

在前两章已经完成了简单的网页的爬取以及为浏览器的学习，最后，我们把豆瓣的首页的图片进行爬取！

最终的效果如下：

代码：

 #导入所需的库
 import urllib.request,socket,re,sys,os
 #定义文件路径
 targetPath="E:\\python\\test2"
 def saveFile(path):
         #检测当前路径是否有效
        if not os.path.isdir(targetPath):
        os.mkdir(targetPath)
    #设置每个图片的路径
    pos=path.rindex('/')
    t=os.path.join(targetPath,path[pos+1:])
    return t
 #网址
 url="https://www.douban.com/"
 headers={'User-Agent': 'Mozilla/5.0  (Windows NT 10.0; WOW64)    AppleWebKit/537.36 (KHTML, like Gecko)' }
 req=urllib.request.Request(url=url,headers=headers)
 res=urllib.request.urlopen(req)
 data=res.read()
 for link,t in set(re.findall(r'(https:[^s]*?(jpg|png|gif))',str(data))):
    print(link)
    try:     urllib.request.urlretrieve(link,saveFile(link))
    except:
        print('失败')