Scrapy爬取淘宝天猫,京东,拼多多等平台商品数据,实时商品详情数据接口
如何运行
-
1.安装Python3
具体过程请参考Python官网
-
2..安装依赖
-
进入项目目录,执行:
pip install -r requirements.txt
-
3.配置chromeDriver
将项目目录下的geckodriver目录加入到PATH中
-
4.修改数据库配置 在settings.py中
# 数据库的配置,请将下面的换成你自己的数据库配置 DB_HOST = 'localhost' # 主机名 DB_PORT = 3306 # 端口号 DB_USER = 'root' # 用户名 DB_PASSWD = '123456' # 密码 DB_DB = 'juhua' # 数据库名
-
5.爬取数据:
scrapy crawl jd scrapy crawl taobao scrapy crawl product_info
6. 封装接口代码请求方式:HTTPS POST GET 请求URL地址 获取API测试账号
7.公共参数:
名称 | 类型 | 必须 | 描述 |
---|---|---|---|
key | String | 是 | 调用key(必须以GET方式拼接在URL中) |
secret | String | 是 | 调用密钥 (复制v:Taobaoapi2014 ) |
api_name | String | 是 | API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等] |
cache | String | 否 | [yes,no]默认yes,将调用缓存的数据,速度比较快 |
result_type | String | 否 | [json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读 |
lang | String | 否 | [cn,en,ru]翻译语言,默认cn简体中文 |
version | String | 否 | API版本 |
8.请求代码示例,支持高并发请求(CURL、PHP 、PHPsdk 、Java 、C# 、Python...)
# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 请求示例 url 默认请求参数已经做URL编码
url = "https://api-gw.Taobaoapi2014.cn/jd/item_get/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=10335871600"
headers = {
"Accept-Encoding": "gzip",
"Connection": "close"
}
if __name__ == "__main__":
r = requests.get(url, headers=headers)
json_obj = r.json()
print(json_obj)