一 引言
数据统计平台,一般由数据采集,数据处理,数据存储,数据可视化,数据分析等部分组成,其中数据采集与处理是重中之重,只有及时,高效,准确的获取数据信息,才能正确的了解一个网站,一个软件的使用情况,做出可靠决策。
数据采集,因各个公司需求不同,其实现亦有所差异,不过,大体上可分为三种方案:
1、代码埋点——即在目标页面或事件中添加一小段js代码,向后端脚本异步发出伪请求,以实现基础信息统计。该方案简洁方便,能实现基本需求,而且在市场上也有百度统计,友盟这样方便的三方服务商,是绝大多数公司采用方案。
2、可视化埋点——即通过可视化工具配置采集节点,在前端自动解析配置并上报埋点数据,从而实现所谓的“无痕埋点”, 代表方案是已经开源的Mixpanel;
3、无埋点——它并不是真正的不需要埋点,而是前端自动采集全部事件并上报埋点数据,在后端数据计算时过滤出有用数据,代表方案是国内的GrowingIO
数据处理,是指针对公司业务,指定需要存储的数据和对应数据格式,以实现数据有效,直观,易于分析。
数据存储,由于统计数据存储量大,不宜采用常规数据库来存储,可采用hadoop