新手扒图

新手写的比较拙劣 但达到效果了。

py是个好东西


# coding=utf-8

import requests
import sys
from bs4 import BeautifulSoup
from multiprocessing import Pool
# 引入模块
import os


def mkdir(path):
# 去除首位空格
path = path.strip()
# 去除尾部 \ 符号
path = path.rstrip("\\")

# 判断路径是否存在
# 存在 True
# 不存在 False
isExists = os.path.exists(path)

# 判断结果
if not isExists:
# 如果不存在则创建目录
# 创建目录操作函数
os.makedirs(path)

print
path + ' 创建成功'
return True
else:
# 如果目录存在则不创建,并提示目录已存在
print
path + ' 目录已存在'
return False


# 详情页通用前缀
skuDetailPath = 'http://www.xxxx.com/products/'

# 首页地址
url = 'http://www.xxxx.com/products/MAGENTO_0'

# 假装头
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

html = requests.get(url, headers=header)

# 使用自带的html.parser解析,速度慢但很通用
soup = BeautifulSoup(html.text, 'html.parser')

# 实际上是第一个class = 'con'的div里的所有a 标签是我要搞他的东西
all_a = soup.find('div', class_='con').find_all('a')

# 线程池中线程数 多线程不会写 放弃
# pool = Pool(5)

beforeSku = 'NA'

for a in all_a:
# 拿Sku作为文件名
sku = a.get("href")
sku = sku[10:len(sku)]
print(sku)
# 扒它图床地址
pic_url = a.find('img')
print(pic_url)
html = requests.get(pic_url.get("load_src"), headers=header)

# 创建文件夹
# 定义要创建的目录
if (sku == beforeSku):
mkpath = "D:\pyproject\\" + sku + "\\"
else:
mkpath = "D:\pyproject\\" + sku + "\\"
# 调用函数
mkdir(mkpath)

os.chdir(mkpath)

# 从详情页面开始扒
html = requests.get(skuDetailPath + sku, headers=header)
# 使用自带的html.parser解析,速度慢但很通用
soup = BeautifulSoup(html.text, 'html.parser')

all_detail_img = soup.find('div', class_='detail_page_con_center_img').find_all('img')

for index, detail_img in enumerate(all_detail_img):
detail_path = detail_img.get("detail_src")
detail_html = requests.get(detail_path, headers=header)
# 开始下载
f = open(sku + '_'+str(index)+ '.jpg', 'wb')
f.write(detail_html.content)
f.close()

beforeSku = sku
# pool.close()
# pool.join()



10秒下载完后的效果图:

[img]http://dl2.iteye.com/upload/attachment/0129/5822/6ed4687e-8549-3fa4-8441-f693aeaf221c.png[/img]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值