某电商商品属性获取分析

最新推荐文章于 2023-05-19 17:22:17 发布

weixin_34194702

最新推荐文章于 2023-05-19 17:22:17 发布

阅读量660

点赞数

文章标签： json javascript 人工智能 ViewUI

原文链接：https://segmentfault.com/a/1190000004186700

版权

为完成一个小型爬虫项目，在并未使用该平台提供的API情况下，细致分析了国内某著名电商网站商品属性的获取思路和方法，兹此记录分享，学习交流。

静态页面部分

为了获取静态页面部分的内容，需要使用firefox的开发者功能禁用javascript，如图
firefox设置
勾选"Disable JavaScript"。刷新页面后可见。通过静态页面可获取标题，商品ID，分类号，商品URL，图片url等内容。可直接使用正则表达式或xpath等工具分析获得，这里不再赘述。

动态内容部分

该网站大部分商品属性都是通过ajax动态获取的。还是通过浏览器来分析。取消勾选"Disable JavaScript"后，使用"Network"工具可对服务器响应的包进行抓包和分类。为避免反复重新加载页面时缓存的影响，勾选"Disable Cache"选项。先打开"Network"界面，然后刷新页面，可获得加载过程的抓包内容。ajax请求返回的数据为json或js类型。例如：
某json数据
url为

http://p.3.cn/prices/get?callback=cnp&type=1&area=1_72_4137&pdtk=&pduid=1516989398&pdpin=&pdbp=0&skuid=J_1743187

可在network工具箱内查看其response内容为
图片描述
对照页面内容后发现其中p字段正是商品价格数据！
通过直接打开链接得到json串为

cnp([{"id":"J_1743187","p":"499.00","m":"549.00"}]);

此response中带有回调函数名"cnp"，观察在url中也有一个相同字段。遂尝试在url中去掉该字段，重新请求后

http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187

获得json：

[{"id":"J_1743187","p":"499.00","m":"549.00"}]

继续尝试删除请求中的get参数，最终发现可用

http://p.3.cn/prices/mgets?skuids=J_1743187

正常获取到相同的数据。
python解析代码：

import urllib2
import json

p=urllib2.urlopen('http://p.3.cn/prices/get?type=1&area=1_72_4137&pduid=1516989398&pdbp=0&skuid=J_1743187').read()
p_json=json.loads(p)
price=p_json['p']

获取到价格数据，方便了自动化生成。其余不能通过静态内容获取的属性均可类比分析尝试获得。

weixin_34194702

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
某电商商品属性获取分析

为完成一个小型爬虫项目，在并未使用该平台提供的API情况下，细致分析了国内某著名电商网站商品属性的获取思路和方法，兹此记录分享，学习交流。静态页面部分为了获取静态页面部分的内容，需要使用firefox的开发者功能禁用javascript，如图勾选"Disable JavaScript"。刷新页面后可见。通过静态页面可获取标题，商品ID...
复制链接

扫一扫

某电商商品属性获取分析

静态页面部分

动态内容部分

“相关推荐”对你有帮助么？