数据仓库复兴-数据来源

  一、业务数据

    随着大数据的概念火了10年,可能很多从事数据领域工作的同学并不了解数仓的概念了。

    我曾经很长时间也不认为概念是个多么重要的东西,黑猫、白猫,能抓住老鼠的就是好猫嘛。只是随着工作经验的不断积累,发现,如果有清晰的基础理论与概念,在实践时会有清晰的思路并能更容易地找到合适的方法;也慢慢体会到了大学教育的作用。

    回归正题,大家都说,数仓是不产生数据的,只加工、处理、存储数据。其实,准确地说,数仓是不产生业务数据才对。

    什么事业务数据并没有准确的定义,我的理解是:一线业务部门因生产、交易、提供服务等产生的基础数据。

    如工厂的生产件数,原料消耗等;电商的注册人数,订单数等;还有社交软件这种,相对抽象一些的,用户的聊天内容,虽然是隐私,但也是业务数据。以此类推吧。

二、日志数据

    主要分为基础的日志和用户行为日志。

   2.1 基础日志

    比如服务器日志,Tomcat日志等,其实也是间接反映了一些行为的发生情况。

    现在以无人车为代表,物联网快速发展,必然少不了一些硬件数据的记录。当然,这并不能定义为用户行为数据,比如门开关的次数,电梯运行等。

   2.2 用户行为数据

    以前是浏览网页时,视线的注意力,以及页面元素的点击情况。

    现在主要是以app为代表的移动端为主,比如用户的点击行为,页面跳转顺序,打开、离开等。

三、外部数据

  1. 外部购买:比如行业数据,研究报告等,也包括一些合作交换等。
  2. 爬虫数据:按需所取了,要在合法范围内。
  3. 其他渠道。

四、主动采集

    这个主要还是在图像识别和计算能力大幅提升之后,我认为应该从日志数据中分离出来,指的是有目的性的数据采集。

    比如,wifi探针这种技术,虽然不能准备标识用户,但对门店流量之类的分析还是非常有帮助的。

    摄像头采集的人脸数据,可用价值就又高了许多。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值