背景描述
最新做的一个项目是要求爬取国外网站Twitter、Instagram、Youtube等等相关产品的评论,然后分析过滤出负面评论,依据最后的分析结果,可以做到提前发现问题、预防问题、解决或改善问题!
爬取思路
因为在一级页面里是拿不到我们想要的数据的,必须要进到二级页面,所以设计思路是,拿到一级页面的URL,再进行二级页面的数据抓取,两者可以同时进行。问题是,爬取一级页面的URL的时候,是采用Selenium模拟下拉网页的,获取的URL会有重复,如果直接把结果存到Redis数据库的话,会给数据库增加很多不必要的负担,但是如果直接用Redis集合进行存储,可以达到去重的目的,结果就是分布式工程无法从Redis集合拿到URL(分布式是从Redis队列拿数据)。
考虑到存储和效率问题,我的解决办法是使用了不同机器上的Redis(一个使用Redis集合,另一个用Redis队列),先存储到Redis集合,成功则返回1,已存在则返回0,返回值为1则存储到Redis队列。