大概一年多以前,和几个小伙伴均认同一个趋势:觉得通过技术手段获取网上越来越丰富的数据,并基于这些数据做分析及可视化,必能产生有价值的结果,帮助大家改善生活。(大数据被叫烂了,所以用低调的方式来解释我们的初心)
第一步:开工,为基金服务
恰巧和几个基金的朋友(包括对冲基金和VC/PE基金)聊到这个趋势,他们非常认同这个观点并愿意付费,认为可以用这种实时且定量的方式来跟踪一些上市公司或者私有公司旗下的产品,来确定谁是有价值的投资目标。于是立马获得订单并促使我们开干,因为考虑到Python灵活及各类爬虫库的优势,最终选用Python来做数据获取的主体架构;也有新潮的小伙伴使用Go,同时用Go搭建了一个很酷的框架来制造分布式的智能爬虫,应对各种反爬策略。抓取数据主要来自于如下网站:
- 各应用商店:获取App的下载量及评论
- 大众点评及美团网:餐饮及各类线下门店消费及评价情况
- 汽车之家及易车:汽车的相关数据
- 58及搜房;房屋租售数据
- 新浪微博:用户的各种发言及舆论
- 财经数据:雪球及各类财经网站
- 宏观数据网站:天气、12306火车、机票网站
最初的产品纯粹是为基金服务。下图是在各个维度找出最有价值的App,各种量级范围内在30天/7天增长最快及评价最好榜单。(顺便吹一下牛,我们这个榜单很早就发现小红书App的快速增长趋势以及在年轻人中的极佳口碑)
加Pyth