火车头抓取阿里巴巴内容页

最新推荐文章于 2023-05-11 12:01:21 发布

盼儿哥

最新推荐文章于 2023-05-11 12:01:21 发布

阅读量1.5k

点赞数

分类专栏：前端

前端专栏收录该内容

36 篇文章 1 订阅

订阅专栏

最近在做阿里巴巴的抓取，对于这种大型的网站，简单的按照教程的标签前后截取，很难以应用这种复杂的样式，因为对于阿里和淘宝这种网站，内容页的样式是用户自己定义的，所以说前后截取已经不再试用。

在网上参考了很多这方面的，真可谓可以利用的信息甚少。在火车头论坛上逛了一下，看见大家对于这种网站的抓取，都先用抓包软件分析网站的请求，抓取内容页真正的数据请求部分。

(httpanalyzer/httpwatch等等，本人比较喜欢前者)

比如抓取 http://detail.china.alibaba.com/offer/1130036970.html 这个网站，在IE浏览器上粘贴上这个网址，利用httpAnalyzer分析获取的结构

（NO 该网页加载获取请求的步骤， type 为获取请求的类型）内容页的类型应该就是text/html按照这个步骤，查找服务器返回的数据是否是内容页的数据，最终查找到真正的地址为 https://laputa.china.alibaba.com/offer/ajax/OfferDesc.do?offerId=1130036970&memberId=xiaohui055&callback=jQuery17208579062023162851_1363054197710）