python爬取绝对领域妹子图新人笔记

最新推荐文章于 2022-12-13 10:31:33 发布

终是蝶衣梦晓楼

最新推荐文章于 2022-12-13 10:31:33 发布

阅读量879

点赞数

分类专栏： python 爬虫学习笔记文章标签： python

本文链接：https://blog.csdn.net/SUMPLUSS/article/details/108041949

版权

python 同时被 3 个专栏收录

36 篇文章 1 订阅

订阅专栏

学习笔记

30 篇文章 0 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

#python爬取绝对领域网站的图片（目前只能单页面提取，并且保留到文件夹内。）
import requests
import re
import time
import os


url = "https://www.jdlingyu.com/mzitu/72206.html"
try:
    kv = {'user-Agent': 'Mozilla/5.0'}
    response = requests.get(url,headers = kv)
    response.encoding = response.apparent_encoding
    
except:
    print("程序运行失败！")
html = response.text    
urls = re.findall(r'<img src="(.*?)" alt=".*?" border="0"',html)
dir_names = re.findall('<h1>(.*?)</h1>',html)[-1]       #这个地方存在的是列表类型需要进行转化才能放到后面

if not os.path.exists(dir_names):     
    os.mkdir(dir_names)

for url in urls:
    time.sleep(1)
    file_name = url.split('/')[-1]
    response1 = requests.get(url,headers=kv)
    with open (dir_names + '/' + file_name,'wb') as f:
        f.write(response1.content)


#一个学生物的编程爱好者
#如果有更好的处理方式欢迎交流啊

#绝对领域主站：https://www.jdlingyu.com/