python爬取网站上的图片并保存到本地

  1.导入需要的模块requests,BeautifulSoup,os(用于文件读写)。

  2.创建一个类,并初始化。

class BeautifulPicture:
    def __init__(self):  # 类的初始化操作
        self.headers = {
            # 给请求指定一个请求头来模拟chrome浏览器
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'
                          ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
        self.web_url = 'url'  # 要访问的网页地址
        self.folder_path = 'E:\\1\\pic'  # 设置图片要存放的文件目录

  3.先请求图片所在的网页,返回网页response

    def request(self, url):  # 返回网页response
        r = requests.get(url, self.headers)  # 向目标url地址发送get请求,返回一个response对象
        return r

  调用request方法,print(r.text)就可以看到控制台上print出的网页源码了。

  4.通过BeautifulSoup工具获取需要抓取的img标签,这里根据不同的网页布局css选择器也会有不同:

    def get_pic(self):
        r = self.request(self.web_url)
        all_item = BeautifulSoup(r.text, 'html.parser').select(".search_results > .item")
        for item in all_item:
            img = item.find('a').find('img')
            url = img['src']

  此处,我是先抓取img所在的div(类名为item),再获取div下的a链接下的img,网页具体代码格式为

<div class="flex_grid credits search_results" style="margin:4px 14px 0 15px">        
    <div class="item" data-w="640" data-h="256">
        <a href="">
            <img srcset="" src="" alt="">
        </a>
    </div>
    ......
</div>

  通过遍历可以获取所有图片的链接。

  5.获取到图片地址链接后,就可以下载图片并保存到本地了。那么就需要确认初始化定义的文件夹是否存在,如果不存在,需要创建。

    def mkdir(self, path):  # 创建文件夹
        path = path.strip()
        is_exists = os.path.exists(path)
        if not is_exists:
            print('创建名字叫做', path, '的文件夹')
            os.makedirs(path)
            print('创建成功!')
        else:
            print(path, '文件夹已经存在了,不再创建')

  6.接下来就可以保存图片了。

  第四步操作,在get_pic方法中,获取到所有图片所在的div标签后,先确保存放图片的文件下是否存在,调用方法

  self.mkdir(self.folder_path) # 创建文件夹  

  os.chdir(self.folder_path) # 切换路径至上面创建的文件夹

  遍历所有的div,根据url名中jpg/png的不同,决定保存图片的后缀名

        i = 1  # 后面用来给图片命名
        for item in all_item:
            img = item.find('a').find('img')
            url = img['src']
            if url.count('jpg') > 0:
                self.save_img(url, str(i) + '.jpg')
            elif url.count('png') > 0:
                self.save_img(url, str(i) + '.png')
            i += 1

  其中save_img方法为:

    def save_img(self, url, name):  # 保存图片
        img = self.request(url)
        f = open(name, 'ab')
        f.write(img.content)
        print(name, '文件保存成功!')
        f.close()

  创建MyBeautifulPicture类的实例,调用get_pic方法,至此,保存图片到本地就可以实现了。

  完整的get_pic方法为:

    def get_pic(self):
        r = self.request(self.web_url)
        all_item = BeautifulSoup(r.text, 'html.parser').select(".search_results > .item")
        self.mkdir(self.folder_path)  # 创建文件夹
        os.chdir(self.folder_path)  # 切换路径至上面创建的文件夹
        i = 1  # 后面用来给图片命名
        for item in all_item:
            img = item.find('a').find('img')
            url = img['src']
            # print(url)
            if url.count('jpg') > 0:
                self.save_img(url, str(i) + '.jpg')
            elif url.count('png') > 0:
                self.save_img(url, str(i) + '.png')
            i += 1

  

转载于:https://www.cnblogs.com/sakurayj/p/10167366.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
flex3的cookbook书籍完整版dpf(包含目录),目录是我花了两个多小时自己整理的,希望对大家有帮助。 目录: 第一章.Flex与ActionScript基础(3) 1.1节.用FlexBuilder创建Flex项目 1.2节.用FlexBuilder创建Flex库项目 1.3节.创建ActionScript项目 1.4节.在FlexBuilder中设置MXML编译器选项 1.5节.在FlexBuilder外部编译Flex项目 1.6节.在MXML中添加事件监听器 1.7节.设置子节点属性 1.8节.定义数组和对象 1.9节.在ActionScript中设置变量的作用域 1.10节.在ActionScript中创建组件 1.11节.使用事件冒泡机制 1.12节.使用代码隐藏模式分离MXML和ActionScript 1.13节.组件属性绑定 1.14节.使用自定义事件以及事件数据传递 1.15节.监听键盘事件 1.16节.定义方法参数 1.17节.检测对象数据类型 1.18节.接口的定义和实现 第二章. 控件与菜单(37) 2.1节. 监听按钮点击 2.2节. 创建一组状态按钮 2.3节. 使用ColorPicker设置Canvas颜色 2.4节. 使用SWFLoader载入SWF 2.5节. 设置组件的标签索引 2.6节. 设置控件的labelFunction 2.7节. 提供菜单数据 2.8. 动态填充菜单 2.9节. 为菜单类控件创建事件处理函数 2.10节. 显示一个通知窗口 2.11节. 使用Calendar控件 2.12节. 弹出窗口的显示和位置 2.13节. 自定义弹出式窗口边框 2.14节. 处理focusIn和focusOut事件 第三章容器(65) 3.1 节使用布局管理器布置子组件 3.2 节通过百分比方式配置容器的布局和尺寸 3.3节. 以不同的坐标系统跟踪鼠标位置 3.4 节在容器中动态添加和移除子组件 3.5 节对容器使用基于约束的布局 3.6 节在容器内为子组件设置最大、最小尺寸 3.7 节为容器指定行和列的约束 3.8 节使用约束条件为文本创建排版流程(Layout Flows) 3.9 节在容器内控制滚动和溢出 3.10 节控制Box 组件的布局 3.11 节使用容器初始化 3.12 节创建TitleWindow 3.13 节通过LinkBar 控制ViewStack 3.14 节将ViewStack 的选中索引数绑定到一个变量上 3.15 节使用延迟实例化提高启动效率 3.16 节创建并控制可调整大小的容器 3.17节在TabNavigator内创建、启用和禁用TAB组件(TabControls) 3.18 节使用可关闭Tabs 创建一个TabNavigator 3.19 节创建和控制Alert 3.20 节根据呼出组件设置对话框的尺寸和位置 3.21 节管理多个弹出对话框 3.22 节在容器中滚动到某个指定的子组件 3.23 节使用IdeferredInstance 创建模板 3.24 节手动布局容器 3.25 节测量并改变容器尺寸 3.26 节控制子组件的可见性和布局 3.27 节用简单重组行为创建Tile 容器 3.28 节给Hbox 设置背景图片和圆角 3.29 节控制子组件的位置和滚动 第四章文本(121) 4.1节正确的设置一个文本对象的值 4.2节. 将TextInput绑定一个值 4.3节. 创建一个具有文字提示的文本输入框 4.4节. 创建一个合适的编辑器 4.5节. 确定用户电脑上安装的所有字体 4.6节. 创建一个自定义的TextInput 4.7节. 为一段文本设置风格属性 4.8节.在HTML里显示图片和SWF文档 4.9节. 在一个搜索域中高亮显示用户输入 4.10节. 把字符当作独立图像处理 4.11节. 指定TextField中的HTML样式 4.12节. 使用RichTextEditor 4.13节. 在HTML中应用嵌入字体 4.14节. 给一个Text 组件中的文本添加拖拽阴影 4.15节. 找出一个TextArea 中最后显示的字符 第五章Lists,Tiles,和Trees(147) 5.1 节.创建可编辑的list 组件 5.2节.为List的某项设置图标 5.3 节. 为List的内容变更添加特效 5.4为TileList创建一个基本的条目渲染器 5.5节.为Tree设置XML数据 5.6节.为Tree创建项渲染器 5.7节.在Tree控件中使用复杂数据对象 5.8节.只允许List的某一项可被选中 5.9节.为List的项编辑器添加格式化和验证数据 5.10节.跟踪TileList中所有被选中的子节点 5.11节.使用和显示项渲染器的N

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值