怎么用python爬图片_(Python爬虫爬取图片这个报错怎么处理?)

想想Python爬一些风景图片,能否有人一步步教我

把想爬的网站给我,我爬好把教程写给你

Python爬虫爬取图片这个报错怎么处理?

你好!你的错误在于html页面img标签src属性中的链接,可能是因为src中的url格这样的:

这样获取到的链接都没有带上协议:http或者https。而导致程序抛出ValueError的错误异常。

因为正常的url格式应该类似这样的:https://www.baidu.com/

即 协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

参考网页链接

可将代码中第一个for循环中download_links.append修改为:for pic_tag in soup.find_all('img'):

pic_link = pic_tag.get('src')

download_links.append('http:'   pic_link)

用Python爬虫爬取的图片怎么知道图片有没有水印

有没有水印是得用图形学的方法去判断的,或者人工判断

怎么样编写Python爬虫抓取暴走漫画上gif图片

# -*- coding: utf-8 -*-

import urllib.request

import bs4,os

page_sum = 1 #设置下载页数

path = os.getcwd()

path = os.path.join(path,'GIF')

if not os.path.exists(path):

os.mkdir(path)                 #创建文

url = ""   #url地址

headers = {                     #伪装浏览器

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'

' Chrome/32.0.1700.76 Safari/537.36'

}

for count in range(page_sum):

req = urllib.request.Request(

url = url str(count 1),

headers = headers

)

print(req.full_url)

content = urllib.request.urlopen(req).read()

soup = bs4.BeautifulSoup(content)          # BeautifulSoup

  img_content = soup.findAll('img',attrs={'style':'width:460px'})

  url_list = [img['src'] for img in img_content]   #列表推导 url

  title_list = [img['alt'] for img in img_content]  #图片名称

for i in range(url_list.__len__()) :

    imgurl = url_list[i]

filename = path   os.sep  title_list[i]   ".gif"

    print(filename ":" imgurl)             #打印下载信息

    urllib.request.urlretrieve(imgurl,filename)    #下载图片

python爬虫图片 在目录中存在图片1 跳过该图片1,继续写入图片2的代码

给你一个代码借鉴下:#/usr/bin/python3

# -*- coding: utf-8 -*-

import requests

import re

import os

Header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36"}

def picture_get(picture_url):

try:

root = "E:/pic/"

path = root   url.split('/')[-1]

if not os.path.exists(root):  # 目录不存在创建目录

os.mkdir(root)

if not os.path.exists(path):  # 文件不则下

r = requests.get(picture_url, headers=Header)

f = open(path, "wb")

f.write(r.content)

f.close()

print("文件下载成功")

else:

print("文经存在")

except:

print("获取失败")

版权声明:本站所有文章皆为原创,欢迎转载或转发,请保留网站地址和作者信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值