怎么快速采集京东、淘宝天猫、1688、拼多多等百家电商产品图片和视频?

 

jd.item_get

公共参数

名称类型必须描述
keyString调用key(必须以GET方式拼接在URL中)
secretString调用密钥
api_nameStringAPI接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]
cacheString[yes,no]默认yes,将调用缓存的数据,速度比较快
result_typeString[json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读
langString[cn,en,ru]翻译语言,默认cn简体中文
versionStringAPI版本

请求参数

请求参数:num_iid=10335871600

参数说明:num_iid:JD商品ID

响应参数

Version: Date:

名称类型必须示例值描述

item

item[]0获得JD商品详情

num_iid

Bigint029186819959商品ID

title

String0MOCO2018夏季新品时尚V领条纹连衣裙 摩安珂 蓝白条色 S商品标题

desc_short

String0商品简介

price

Float0719.0价格

total_price

Float00

suggestive_price

Float00

orginal_price

Float01199.00原价

nick

String0MO&Co.官方旗舰店掌柜昵称

num

Int0999库存

min_num

Int00

detail_url

String0http://item.jd.com/29186819959.html商品链接

pic_url

String0//img14.360buyimg.com/n0/jfs/t22033/147/1051007175/85125/c44dd0df/5b1f2855Ncbe35858.jpg商品图片

brand

String0品牌名称

brandId

Int0品牌ID

rootCatId

Int01343顶级分类ID

cid

Int09719分类ID

crumbs

Mix0[]

created_time

String0

modified_time

String0

delist_time

String0

desc

String0

desc_img

Mix0[]

item_imgs

Mix0[{ "url": "//img14.360buyimg.com/n0/jfs/t22033/147/1051007175/85125/c44dd0df/5b1f2855Ncbe35858.jpg"}]商品图片

item_weight

String0

item_size

String0

location

String0发货地

post_fee

Float06.00物流费用

express_fee

Float06.00快递费用

ems_fee

Float06.00EMS费用

shipping_to

String0发货至

has_discount

Boolean0false

video

Mix0[]商品视频

is_virtual

String0

sample_id

String0商品风格标识ID

is_promotion

Boolean0

props_name

String00:0:尺码:S;0:1:尺码:XS;0:2:尺码:M;0:3:尺码:L;0:4:尺码:XL商品属性名

prop_imgs

Mix0{"prop_img": []}商品属性图片列表

property_alias

String00:0:S;0:1:XS;0:2:M;0:3:L;0:4:XL商品属性别名

props

Mix0[{ "name": "尺码","value": "S XS M L XL" }]商品详情

total_sold

Int0

skus

Mix0{"sku": [{"price": "719.00", "orginal_price": "1199.00", "properties": "0:0", "properties_name": "0:0:尺码:S", "quantity": 99, "sku_id": 29186819959, "sku_url": "http://item.jd.com/29186819959.html"}]商品规格信息

seller_id

Int0卖家ID

sales

Int0销量

shop_id

Int0店铺ID

props_list

Mix0{"0:0": "尺码:S"}商品属性

seller_info

Mix0{"level": null, "shop_type": null, "user_num_id": 57467, "cid": null, "delivery_score": null, "item_score": null, "score_p": null, "zhuy": "//moco.jd.com", "search_id": "", "nick": "MO&Co.官方旗舰店", "shop_name": "MO&Co.官方旗舰店", "title": "MO&Co.官方旗舰店" }卖家信息

tmall

Boolean0false是否天猫

error

String0错误信息

warning

String0警告信息

url_log

Mix0[]

props_img

Mix0[]属性图片

shop_item

Mix0[]

relate_items

Mix0[]
  • 19
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据仓库(Data Warehouse)简称DW或DWH,是数据库的一种概念上的升级,可以说是为满足新需求设计的一种新数据库,而这个数据库是需容纳更多的数据,更加庞大的数据集,从逻辑上讲数据仓库和数据库是没有什么区别的。为企业所有级别的决策制定过程,提供所有类型数据支撑的战略集合,主要是用于数据挖掘和数据分析,以建立数据沙盘为基础,为消灭消息孤岛和支持决策为目的而创建的。 数据仓库的应用 1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。 2.数据化运营、精准运营。 3.广告精准、智能投放。 随着我们从IT时代步入DT时代,数据积累量也与日俱增,同时伴随着互联网的发展,越来越多的应用场景产生,传统的数据处理、存储方式已经不能满足日益增长的需求。而互联网行业相比传统行业对新生事物的接受度更高、应用场景更复杂, 因此基于大数据构建的数据仓库先在互联网行业得到了尝试。 高性能高扩展的亿级电商全端实时数据仓库全实现(PC、移动、小程序) ,以热门的互联网电商实际业务应用场景为案例讲解,对电商数据仓库的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、月大盘收入报表、高付费用户分析报表、流量域多方位分析、营销域多方位分析、实时排行榜指标分析、用户主题分析、店铺主题时间区间分析等,数据分析涵盖全端(PC、移动、小程序)应用,与互联网企业大数据技术同步,让大家能够真正学到大数据企业级数据仓库的实战经验。本课程凝聚讲师多年一线大数据企业实际项目经验,大数据企业在职架构师亲自授课,全程实操代码,带你体验真实的大数据开发过程,代码现场调试。通过本课程的学习再加上老师的答疑,你完全可以将本案例直接应用于企业。本套课程可以满足世面上绝大多数大数据企业级的数据仓库业务场景,全部代码可以直接部署企业,支撑亿级并发数据分析。该项目代码也是具有极高的商业价值的,大家可以根据自己的业务进行修改,便可以使用。本课程包含的技术:  开发工具为:IDEA、WebStorm Flink1.9.0 Greenplum5.0.0 Hadoop2.6.0 Hbase1.0.0 Kafka2.1.0 Hive1.1.0 HDFS、MapReduce Redis、Flume Sqoop、Zookeeper MyBatis、EhCache SpringBoot2.0.2.RELEASE SpringCloud Finchley.RELEASE Binlog、Canal MySQL、MyCat Vue.js、Nodejs Highcharts课程亮点: 1.与企业对接、真实工业界产品  2.支持海量数据的分析 3.支持全端实时数据分析 4.通用数据仓库分层解决方案 5.数据库实时同步解决方案 6.主流微服务后端系统 7.电商数据仓库实战指标 8.实时加离线多方位分析 9.互联网大数据企业热门技术栈 10.分布式数据库存储解决方案 11.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS 12.大数据热门技术Flink新版本13.集成SpringCloud实现统一整合方案 14.全程代码实操,提供全部代码和资料 15.提供答疑和提供企业技术方案咨询企业一线架构师讲授,代码企业直接复用,提供企业解决方案。  版权归作者所有,盗版将进行法律维权。 
爬取 脚本执行下面的命令,项目目录下会创建产品目录,所有的爬取到的商品图片和信息总体出现在里面。 python crawl.py supreme https://www.supremecommunity.com/season/spring-summer2020/droplist/2020-02-27/ 其他依赖 为了使用正确使用nike爬虫,你还需要: Chrome浏览器(chrome 85版) ChromeDriver 85.0.4183.87 缺失它们不会影响其他爬虫的使用。 配置问题 通过修改IMAGES_STORE可以自定义文件的存储位置。 默认开启了AUTOTHROTTLE,可以通过设置AUTOTHROTTLE_ENABLED为False关闭。 基本使用 项目下执行命令: python crawl.py brand start_url... 把brand替换为品牌名。 把start_url替换为要开始爬取的网页。 爬虫 最高 爬取某一季所有周的商品 python crawl.py supreme https://www.supremecommunity.com/season/spring-summer2020/droplists/ 浏览某一周所有的商品 python crawl.py supreme https://www.supremecommunity.com/season/spring-summer2020/droplist/2020-02-27/ 游走取一些周的商品 python crawl.py supreme https://www.supremecommunity.com/season/spring-summer2020/droplist/2020-02-27/ https://www.supremecommunity.com/season/spring-summer2020/droplist/2020-05-21/ 资本 去取某一特定下的所有商品 python crawl.py kapital https://www.kapital-webshop.jp/category/W_COAT/ 耐克 爬取当前搜索的商品(包括所有颜色) python crawl.py nike https://www.nike.com/cn/w?q=CU6525&vst=CU6525 熊砖 去取当前分类的所有商品 python crawl.py bearbrick http://www.bearbrick.com/product/12_0 已知问题:BearBrickLoader 的category_in无法达到预期的行为。 United Arrows 网上商店 取当前商品 python crawl.py uastore https://store.united-arrows.co.jp/shop/mt/goods.html?gid=52711245 特拉维斯·斯科特 爬取所有商品 python crawl.py ts https://shop.travisscott.com/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值