怎么用python爬图片_(Python爬虫爬取图片这个报错怎么处理？)

最新推荐文章于 2022-01-12 08:30:00 发布

weixin_39837867

最新推荐文章于 2022-01-12 08:30:00 发布

阅读量317

点赞数

文章标签：怎么用python爬图片

想想Python爬一些风景图片，能否有人一步步教我

把想爬的网站给我，我爬好把教程写给你

Python爬虫爬取图片这个报错怎么处理？

你好！你的错误在于html页面img标签src属性中的链接，可能是因为src中的url格这样的：

这样获取到的链接都没有带上协议：http或者https。而导致程序抛出ValueError的错误异常。

因为正常的url格式应该类似这样的：https://www.baidu.com/

即协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

参考网页链接

可将代码中第一个for循环中download_links.append修改为：for pic_tag in soup.find_all('img'):

pic_link = pic_tag.get('src')

download_links.append('http:' pic_link)

用Python爬虫爬取的图片怎么知道图片有没有水印

有没有水印是得用图形学的方法去判断的，或者人工判断

怎么样编写Python爬虫抓取暴走漫画上gif图片

# -*- coding: utf-8 -*-

import urllib.request

import bs4,os

page_sum = 1 #设置下载页数

path = os.getcwd()

path = os.path.join(path,'GIF')

if not os.path.exists(path):

os.mkdir(path) #创建文

url = "" #url地址

headers = { #伪装浏览器

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'

' Chrome/32.0.1700.76 Safari/537.36'

}

for count in range(page_sum):

req = urllib.request.Request(

url = url str(count 1),

headers = headers

)

print(req.full_url)

content = urllib.request.urlopen(req).read()

soup = bs4.BeautifulSoup(content) # BeautifulSoup

img_content = soup.findAll('img',attrs={'style':'width:460px'})

url_list = [img['src'] for img in img_content] #列表推导 url

title_list = [img['alt'] for img in img_content] #图片名称

for i in range(url_list.__len__()) :

imgurl = url_list[i]

filename = path os.sep title_list[i] ".gif"

print(filename ":" imgurl) #打印下载信息

urllib.request.urlretrieve(imgurl,filename) #下载图片

python爬虫图片在目录中存在图片1 跳过该图片1，继续写入图片2的代码

给你一个代码借鉴下：#/usr/bin/python3

# -*- coding: utf-8 -*-

import requests

import re

import os

Header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36"}

def picture_get(picture_url):

try:

root = "E:/pic/"

path = root url.split('/')[-1]

if not os.path.exists(root): # 目录不存在创建目录

os.mkdir(root)

if not os.path.exists(path): # 文件不则下

r = requests.get(picture_url, headers=Header)

f = open(path, "wb")

f.write(r.content)

f.close()

print("文件下载成功")

else:

print("文经存在")

except:

print("获取失败")

版权声明：本站所有文章皆为原创，欢迎转载或转发，请保留网站地址和作者信息。

weixin_39837867

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
怎么用python爬图片_(Python爬虫爬取图片这个报错怎么处理？)

想想Python爬一些风景图片，能否有人一步步教我把想爬的网站给我，我爬好把教程写给你Python爬虫爬取图片这个报错怎么处理？你好！你的错误在于html页面img标签src属性中的链接，可能是因为src中的url格这样的：这样获取到的链接都没有带上协议：http或者https。而导致程序抛出ValueError的错误异常。因为正常的url格式应该类似这样的：https://www.baidu.c...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。