Python爬虫-抓取网站下.jpg文件

最新推荐文章于 2023-06-27 10:43:33 发布

wangying202

最新推荐文章于 2023-06-27 10:43:33 发布

阅读量1k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/wangying202/article/details/112046489

版权

正则表达式数据挖掘

python 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

抓取网站下的.jpg文件的主要步骤：

第一步：获取网站的html源码（方法：gethtml()）
第二步：从源代码中抓取出图片的url地址（通过正则表达式获取url列表）
第三步：通过url下载图片到本地（urllib.request.urlretrieve()方法）

主要讲一下正则表达式的意思：

reg = r'http://[^\s]*?\.jpg'

[]:常用来代表字符集
[^]: 代表除字符集以外的字符
\s：代表任何空白字符。其中包括空格、制表符和换页符。 [ \f\n\r\t\v]

python代码如下：

import re
from urllib.request import urlopen, urlretrieve


def gethtml(url):
    page = urlopen(url)
    html = page.read()
    return html


def getImg(html):
    reg = r'http://[^\s]*?\.jpg'
    # reg = r'http://[\S]*?\.jpg'
    imgre = re.compile(reg)
    imghtml = imgre.findall(str(html))
    x = 0
    for imgurl in imghtml:
        print(imgurl)
        urlretrieve(imgurl, ".\data\\" + str(x) + ".jgp")
        x += 1


if __name__ == "__main__":
    html = gethtml("http://www.netxxxbian.com/")
    getImg(html)

wangying202

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫-抓取网站下.jpg文件

抓取网站下的.jpg文件的主要步骤：第一步：获取网站的html源码（方法：gethtml()）第二步：从源代码中抓取出图片的url地址（通过正则表达式获取url列表）第三步：通过url下载图片到本地（urllib.request.urlretrieve()方法）主要讲一下正则表达式的意思：reg = r'http://[^\s]*?\.jpg'[]:常用来代表字符集[^]: 代表除字符集以外的字符\s：代表任何空白字符。其中包括空格、制表符和换页符。 [ \f\n\r\t\v]pyth
复制链接

扫一扫