用Python的xpath模块学习抓取图片

littlespider889

已于 2024-03-14 20:32:26 修改

阅读量158

点赞数 1

分类专栏： python 文章标签： python html

于 2020-05-25 03:37:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/littlespider889/article/details/106268899

版权

python 专栏收录该内容

156 篇文章 9 订阅

订阅专栏

大家好，我是天空之城，今天带来一个小福利，教大家用python抓取图片。话不多说，上代码。

import requests,re,lxml
from lxml import etree

class Spider(object):
    def __init__(self):
        self.headers = {
            'Referer': 'https://www.mzitu.com',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; rv:46.0) Gecko/20100101 Firefox/46.0',
            'cookie': 'Hm_lvt_cb7f29be3c304cd3bb0c65a4faa96c30=1589688375; Hm_lpvt_cb7f29be3c304cd3bb0c65a4faa96c30=1589693220'
        }


    def getpage(self):
        for i in range(100):
            url = 'https://www.mzitu.com/page/{}/'.format(str(i))
            res=requests.get(url,headers=self.headers)
            print(res.status_code)
            res1=res.text
            html = etree.HTML(res1)
            self.getdata(html)

    def getdata(self,html):

        titles=html.xpath('//ul[@id="pins"]/li/a/img/@alt')
        links=html.xpath('//ul[@id="pins"]/li/a/img/@data-original')
        for title,link in zip(titles,links):
            pic_name = title + '.jpg'
            res_pic = requests.get(url=link, headers=self.headers)
            try:
                with open(pic_name, 'wb') as f:
                    f.write(res_pic.content)
            except Exception:
                pass
              
spider=Spider()
spider.getpage()

==============================================================
思路就是这样。这个面向对象是参考别人的代码写的，我自己写的是面向过程的。

littlespider889

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
用Python的xpath模块学习抓取图片

大家好，我是天空之城，今天带来一个小福利，教大家用python抓取妹子图。话不多说，上代码。import requests,re,lxmlfrom lxml import etreeclass Spider(object): def __init__(self): self.headers = { 'Referer': 'https://www.mzitu.com', 'User-Agent': 'Mozilla/5.0 (Wi
复制链接

扫一扫

专栏目录

littlespider889 CSDN认证博客专家 CSDN认证企业博客

码龄4年

241: 原创

1万+: 周排名

9105: 总排名

26万+: 访问

: 等级

3763: 积分

5856: 粉丝

326: 获赞

68: 评论

872: 收藏

私信

关注

热门文章

分类专栏

VBA 4篇
excel 33篇
tkinter 1篇
mysql 27篇
爬虫 24篇
python 156篇
spider 16篇
数据可视化 4篇
数据分析与挖掘 16篇
LAMP
Linux 2篇
word 2篇
scrapy 6篇
PMP 1篇
正则表达式 2篇
Flask 14篇
web安全测试 1篇
岭回归与lasso回归 1篇
线性回归分析 2篇
numpy 3篇
web安全攻防 1篇
vue 3篇
redis 3篇
Django 5篇
git 1篇
github 1篇
mongodb 3篇
词云图 2篇
urllib 1篇
笔记 2篇

最新评论

python的GUI编程初探，这部分内容真的非常有意思
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
用python的selenium模块自动爬取歌曲评论和登录豆瓣
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
小福利，用xpath爬取电影数据
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)提升标题与正文的相关性。
用Python的xpath模块学习抓取图片
CSDN-Ada助手: 行动是成功的阶梯，行动越多，登得越高。
小福利，爬取旅游攻略，做好攻略随时出发去旅游哦
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数；(3)使用更多的站内链接。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。