如何根据关键词爬去1688商品数据?

根据关键词在淘宝1688平台上搜索商品,并将商品的pid等信息抓取下来。 在这里插入图片描述首先,我们打开首页https://s.1688.com/,在这里插入图片描述输入关键词:女装。↓↓↓???

点击找一下,后会跳转到商品页面,如上图所示↓↓↓??? 这个时候我们就可以看到女装商品分类,和一些推荐商品。
在这里插入图片描述接下来我们不要急着爬这些商品数据,我们要找的是这些商品的分类目录地址。谷歌浏览器右击检查页面,仔细观察会发现,每个分类的商品都有对应的地址,例如:连衣裙,对应的地址如下??? 在这里插入图片描述我们进入连衣裙的href标签里面的地址,你会发现页面的标题已经从“女装”变成“女装-连衣裙”了,因为我们在这个页面看到的商品是经过淘宝分类后的,这一页内容只包含“女装-连衣裙”。??? 通过抓包 我们发现,发现这一页的真实的数据来源地址是:???https://s.1688.com/selloffer/rpc_async_render.jsonp?cps=1&n=y&filtOfferTags=279874&filt=y&keywords=%C5%AE%D7%B0&&categoryId=0&n=y&uniqfield=pic_tag_id&templateConfigName=marketOfferresult&pageSize=60&asyncCount=60&async=true&enableAsync=true&rpcflag=new&pageName=market&callback=jQuery172015741463935213496_1555383468519&beginPage=1 联系上下文,仔细观察会发现,这是一个可以拼接的url,大致拼接方式如下:???url = ‘https://s.1688.com/selloffer/rpc_async_render.jsonp?cps=1&n=y&filtOfferTags=279874&filt=y&keywords=’+keywords+’&categoryId=’+categoryId+’&n=y&uniqfield=pic_tag_id&templateConfigName=marketOfferresult&pageSize=60&asyncCount=60&async=true&enableAsync=true&rpcflag=new&pageName=market&callback=jQuery172015741463935213496_1555383468519&beginPage=’+str(i) 其中keywords不难看出是关键词,而且是进行url编码后的,而 i 这个明显是页码数字,categoryId英语好的一眼就知道是“类别ID”这些参数是从哪来的呢?回到前面,我们进入“女装-连衣裙”的页面,并查看源码,搜索这些关键词,找到了: 接下来的事 就简单了,通过填参数拼接url,我们随意可以从女装-连衣裙分类下,获取几十页数据信息,或者从女装-日韩女装分类下获取数据信息。然后通过正则匹配到商品offerid。??? 在这里插入图片描述在这里插入图片描述在这里插入图片描述of在这里插入图片描述ferid代表的就是商品id,例如取出其中一个offerid:556983465623。那么这个商品的完整地址就是:https://detail.1688.com/offer/556983465623.html商品的名称、价格、销量、大小参数都可以从这个地址获取到。

有兴趣的可交流留言。请查看http://console.open.onebound.cn/console/?i=Turbo了解相关API接口和接入文档,另外不定期会更新API接口的内容以及各个电商平台的大动向!
友情提示:回帖是一种美德,也是对楼主辛勤付出的尊重和支持!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值