Python爬虫小试——爬取图片

最新推荐文章于 2022-11-25 22:47:32 发布

canger_

最新推荐文章于 2022-11-25 22:47:32 发布

阅读量699

点赞数

分类专栏： Python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/Canger_/article/details/82946111

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

如果是直接装了Anaconda集成开发环境的，就可以直接移步源码了

否则的话，在爬取图片之前要安装几个包

第一个：`bs4`包，需要用到其中的BeautifulSoap，是一个功能强大的网页解析工具

pip3 install bs4

第二个：`requests`包，安装步骤如上，用于抓取网页源代码

代码如下:

import requests,os
from bs4 import BeautifulSoup
from urllib.request import urlopen

images_dir = "images/"      #要存储的文件夹
if not os.path.exists(images_dir):     
    os.mkdir(images_dir)
url = "http://www.baidu.com/"    #url
html = requests.get(url)             #获取html文本
html.encoding = 'utf-8'              #编码格式utf-8
sp = BeautifulSoup(html.text,'html.parser') #源码解析
links = sp.find_all(["img",'a'])     #找出所有img标签
index = 0
for link in links:
    src = link.get('src')           #获取src
    if src != None and 'https' in src:  #非空src
        if 'jpg' in src:
            img_name = str(index+1) + ".jpg"
        elif 'png' in src:
            img_name = str(index+1) + ".png"        
        image = urlopen(src)          #url open
        f = open(os.path.join(images_dir,img_name),"wb")  #创建文件
        f.write(image.read())      #写入图片
        f.close()
        print('%d finish\n'%(index+1))
        index = index + 1
print("OK")

canger_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫小试——爬取图片

如果是直接装了Anaconda集成开发环境的，就可以直接移步源码了否则的话，在爬取图片之前要安装几个包第一个：bs4包，需要用到其中的BeautifulSoap，是一个功能强大的网页解析工具pip3 install bs4第二个：requests包，安装步骤如上，用于抓取网页源代码代码如下:import requests,osfrom bs4 import BeautifulSou...
复制链接

扫一扫