python爬取图片并生成文件

爬虫的组成

  • 获取网页源地址
  • 提取数据
  • 保存数据

获取网页内容的原理

在此过程中,我们会使用到urllib,re两个库,以及正则表达式的知识。
urllib 是用来进行 url 网络请求的,而 re 是一个正则表达式匹配的库。

获取网络内容

import requests
r = requests.get("目标网址")
content = r.text   #content就是目标的html内容

隐藏(反爬虫)
三种解决方法:

  • 休息一会,使用time.sleep()不连续爬取
  • 请求的时候模拟浏览器操作,设置headers(服务器是通过发送的 HTTP 头中的 User-Agent 来进行识别浏览器与非浏览器。)
  • 使用代理IP

代码

#coding = utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = 'src="(.+?\.jpg)" alt='
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x+=1
    return imglist

html = getHtml("http://pic.yxdown.com/list/0_0_1.html")

print getImg(html)
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值