项目需求:某化妆品集团科技中心需要对小红书上面的用户进行分析,需要采集一批小红书上面关于企业产品跟品牌的种草信息
执行部门:科技中心程序员
执行需要用到的代码:python
成本:人工成本、IP池成本、服务器成本等
常规执行:
1、买好海量的IP池,模拟人工去访问小红书网站,抓取相关数据(因为小红书有反爬)
2、抓取结果:小红书千人千面,抓取到的数据有很多重合的内容,而且动不动就封掉IP,抓取到的数据不全面
目前流行的高效抓取数据方法:
1、用甲鱼舆情监测软件的API接口调用任何想要的小红书数据,可以按照用户,时间段、关键词等
2、调取数据结果:精准,高效,几分钟可以实现千万条数据的调取