一、业务数据
随着大数据的概念火了10年,可能很多从事数据领域工作的同学并不了解数仓的概念了。
我曾经很长时间也不认为概念是个多么重要的东西,黑猫、白猫,能抓住老鼠的就是好猫嘛。只是随着工作经验的不断积累,发现,如果有清晰的基础理论与概念,在实践时会有清晰的思路并能更容易地找到合适的方法;也慢慢体会到了大学教育的作用。
回归正题,大家都说,数仓是不产生数据的,只加工、处理、存储数据。其实,准确地说,数仓是不产生业务数据才对。
什么事业务数据并没有准确的定义,我的理解是:一线业务部门因生产、交易、提供服务等产生的基础数据。
如工厂的生产件数,原料消耗等;电商的注册人数,订单数等;还有社交软件这种,相对抽象一些的,用户的聊天内容,虽然是隐私,但也是业务数据。以此类推吧。
二、日志数据
主要分为基础的日志和用户行为日志。
2.1 基础日志
比如服务器日志,Tomcat日志等,其实也是间接反映了一些行为的发生情况。
现在以无人车为代表,物联网快速发展,必然少不了一些硬件数据的记录。当然,这并不能定义为用户行为数据,比如门开关的次数,电梯运行等。
2.2 用户行为数据
以前是浏览网页时,视线的注意力,以及页面元素的点击情况。
现在主要是以app为代表的移动端为主,比如用户的点击行为,页面跳转顺序,打开、离开等。
三、外部数据
- 外部购买:比如行业数据,研究报告等,也包括一些合作交换等。
- 爬虫数据:按需所取了,要在合法范围内。
- 其他渠道。
四、主动采集
这个主要还是在图像识别和计算能力大幅提升之后,我认为应该从日志数据中分离出来,指的是有目的性的数据采集。
比如,wifi探针这种技术,虽然不能准备标识用户,但对门店流量之类的分析还是非常有帮助的。
摄像头采集的人脸数据,可用价值就又高了许多。