Python爬虫图片爬取简陋版

最新推荐文章于 2024-08-17 17:18:53 发布

OP_o

最新推荐文章于 2024-08-17 17:18:53 发布

阅读量456

点赞数

文章标签： Python 爬虫新手

本文链接：https://blog.csdn.net/CCpps/article/details/102179807

版权

Python爬虫图片爬取简陋版

因为在自学Python 学了几天打算写一个爬虫，后来发现学的python的基础还要学库
于是花了好长时间查资料
终于写出来一个简陋版本的东拼西凑还真让我搞成了
下面放代码名字都是随便起的见谅啦

import requests
from bs4 import BeautifulSoup
root="D:"   #保存区域
url='http://www.nipic.com/topic/show_27332_1.html'   #要爬取的网站Url

r=requests.get(url) #获取整个网页的源码
poe=BeautifulSoup(r.text,'lxml')   #用Beauxxxxx创建对象
data=poe.select("#img-list-outer>li>a>img")  #获取网页中id为img-list-outer内 li标签下 a> img的文本
headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'#改变头文件
    }
for aa in  data:  #在aa里面查找data
    src=aa.get('src')   #获取img内的src
    filename = (src[-18:]).replace('/', '-')   #重新读取src
    target = "uploads/{}".format(filename) #创建请求
    rs = requests.get(src, headers=headers)#每个请求都使用修改头文件
    print(target)   #输出测试获取的src
    path = root + target.split('/')[-1]  #创建下载字符串
    with open(path, 'wb') as f:   #下载文件
        f.write(rs.content)# 向文件中写入指定字符
        f.close()
        print("文件保存成功")