初级数据平台
初级数据平台概述
初创公司由于数据量不够,一般直接用sql在业务数据库跑数据,导入Excel或SPSS等进行分析。
等有了一些数据量,多备几个服务器,分库分表。
再进一步,单独建一个统计数据库,利用存储过程或脚本定时跑N多报表数据,再直接接入到后台即可。
业务数据库是读写优化,读的性能不怎么高,而且表结构是为了方便数据流存取,操作历史数据通常是单独存一张表或者直接不存或者定时删除一定时间之前的历史数据,分析师跑数据还需要逻辑处理和聚合函数。跑跑业务状态数据差不多,跑个UV、跑个历史操作数据、复杂查询逻辑都很慢。对实时性要求不高,业务不复杂不多变,历史操作数据不太必要的公司来说够用。
数据分析师需掌握技能:
硬技能:
- *Excel
- *SQL(通常是MySQL)
- Power BI/Tableau(自动刷新数据源+建模+可视化,目前这类工具还有很多,比如帆软、Quick BI、BDP等,这类工具再过几年应该会是必备技能)
- Python、R、VBA(爬虫、NLP、自动化)
软技能:
- 分析思路(把自己定位成商业咨询)
- 指标管理(熟悉业务制定指标体系,简单来讲也就是把业务分几个模块,每个模块有一两个关键指标,以关键指标为结果分拆过程指标方便制定增长目标)
- 熟悉业务流程(没事经常在线上操作,在数据库里查查日志,没准有啥新发现。。)
- 指标预测(没有对比就没有分析,所以不管是KPI管理还是做活动都需要做预测)
——以上涉及统计学、营销学、运营、产品知识,别说我没说。
——总结:必备技能也就是Excel+SQL出出报表,软技能看公司水平和侧重点,从纯出报表到需要做活动、做A/B测试及对结果负责都有可能。很多这类公司连业务指标都是乱的,发展很有限。PS:除非业务上能得到很大的锻炼,否则赶紧进阶,不然很快被这个时代的学弟学妹们所替代。
中级数据平台
中级数据平台概述
[图片引用自:https://zhuanlan.zhihu.com/p/24042022 ]
此类数据平台基本满足大部分公司,除了一二线互联网公司、金融、银行这些数据量大的公司,其他基本都足够支持了。
基本思路:
数据采集层:业务数据库、日志数据、文本数据(历史数据或爬虫抓取的竞对资料等)、第三方数据等收集到一手数据
数据存储层:通过ETL得到汇总数据或明细数据