免责声明:本篇文章仅用于学习与研究使用
目录
一、逆向目标
针对大众点评的成都购物类别进行数据抓取,若有接口,则优先进行接口爬取,有加密参数或加密cookies就利用全局搜索、断点调试、hook技术、JS重写等找出其加密逻辑,若是加密过于复杂,也可采取自动化模拟(selenium/playwright等)方式进行抓取数据;若没有接口则采取网页元素定位的方式,若两种方式都行则我们需要比较哪种方式更能稳定爬取,更有利于爬虫的后期维护
此次成都购物类别数据抓取实战针对每个购物站点建立两个CSV文件(以购物站名称命名),第一个CSV文件为购物站的大致信息数据,以"购物站名称.csv"给文件命名,需要抓取的字段包括:
购物站名称,比如:成都远洋太古里
购物站类型:比如:商场
购物地址:比如:春熙路
购物详情地址:比如:中纱帽街8号
购物人均费用,比如:784元
评论数量:比如:13080条
设施评分&