Python爬虫-抓取网站下.jpg文件

抓取网站下的.jpg文件的主要步骤:

第一步:获取网站的html源码(方法:gethtml())
第二步:从源代码中抓取出图片的url地址(通过正则表达式获取url列表)
第三步:通过url下载图片到本地(urllib.request.urlretrieve()方法)

主要讲一下正则表达式的意思:

reg = r'http://[^\s]*?\.jpg'

[]:常用来代表字符集
[^]: 代表除字符集以外的字符
\s:代表任何空白字符。 其中包括空格、制表符和换页符。 [ \f\n\r\t\v]

python代码如下:

import re
from urllib.request import urlopen, urlretrieve


def gethtml(url):
    page = urlopen(url)
    html = page.read()
    return html


def getImg(html):
    reg = r'http://[^\s]*?\.jpg'
    # reg = r'http://[\S]*?\.jpg'
    imgre = re.compile(reg)
    imghtml = imgre.findall(str(html))
    x = 0
    for imgurl in imghtml:
        print(imgurl)
        urlretrieve(imgurl, ".\data\\" + str(x) + ".jgp")
        x += 1


if __name__ == "__main__":
    html = gethtml("http://www.netxxxbian.com/")
    getImg(html)
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值