想想Python爬一些风景图片,能否有人一步步教我
把想爬的网站给我,我爬好把教程写给你
Python爬虫爬取图片这个报错怎么处理?
你好!你的错误在于html页面img标签src属性中的链接,可能是因为src中的url格这样的:
这样获取到的链接都没有带上协议:http或者https。而导致程序抛出ValueError的错误异常。
因为正常的url格式应该类似这样的:https://www.baidu.com/
即 协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志
参考网页链接
可将代码中第一个for循环中download_links.append修改为:for pic_tag in soup.find_all('img'):
pic_link = pic_tag.get('src')
download_links.append('http:' pic_link)
用Python爬虫爬取的图片怎么知道图片有没有水印
有没有水印是得用图形学的方法去判断的,或者人工判断
怎么样编写Python爬虫抓取暴走漫画上gif图片
# -*- coding: utf-8 -*-
import urllib.request
import bs4,os
page_sum = 1 #设置下载页数
path = os.getcwd()
path = os.path.join(path,'GIF')
if not os.path.exists(path):
os.mkdir(path) #创建文
url = "" #url地址
headers = { #伪装浏览器
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
' Chrome/32.0.1700.76 Safari/537.36'
}
for count in range(page_sum):
req = urllib.request.Request(
url = url str(count 1),
headers = headers
)
print(req.full_url)
content = urllib.request.urlopen(req).read()
soup = bs4.BeautifulSoup(content) # BeautifulSoup
img_content = soup.findAll('img',attrs={'style':'width:460px'})
url_list = [img['src'] for img in img_content] #列表推导 url
title_list = [img['alt'] for img in img_content] #图片名称
for i in range(url_list.__len__()) :
imgurl = url_list[i]
filename = path os.sep title_list[i] ".gif"
print(filename ":" imgurl) #打印下载信息
urllib.request.urlretrieve(imgurl,filename) #下载图片
python爬虫图片 在目录中存在图片1 跳过该图片1,继续写入图片2的代码
给你一个代码借鉴下:#/usr/bin/python3
# -*- coding: utf-8 -*-
import requests
import re
import os
Header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36"}
def picture_get(picture_url):
try:
root = "E:/pic/"
path = root url.split('/')[-1]
if not os.path.exists(root): # 目录不存在创建目录
os.mkdir(root)
if not os.path.exists(path): # 文件不则下
r = requests.get(picture_url, headers=Header)
f = open(path, "wb")
f.write(r.content)
f.close()
print("文件下载成功")
else:
print("文经存在")
except:
print("获取失败")
版权声明:本站所有文章皆为原创,欢迎转载或转发,请保留网站地址和作者信息。