联合之大数据(二:数据产生)

数据产生:数据的产生主要体现在单位时间内有新发生记录、变化,且后发生的数据不会影响前面的数据保留。

那么数据产生一般可从不同的角度可分为:从数据的完整度可分为:全量数据、半全量数据、非全量数据;从数据的时效性可分为:实时动态数据、历史静态数据;从数据的价值可分为:有效数据,垃圾数据,可清洗数据;从数据的关联关系上分:可分为关系型数据、非关系型数据、中间型数据。

以目前数据产生的行为来看,某一个数据都无法独立拥有单独或者存在独立的数据特性,数据特性之间至少存在两种以上的共存。这个稍后再说。我们先看看数据产生的过程。

以上是第一种数据产生的方式,下图是第二种处理的方式:

以上就是数据处理的两周方式。而处理的结果就是数据。

可能有人会问在两种方式中一个处理的逻辑怎么会产生多个处理的结果呢?是这样的数据在处理中有不同的处理方式和办法,可能产生各种各样的数据,甚至这些数据都是在某一个时刻同时产生的或者发生的,我们只需要根据自己的业务需求获取对应的数据即可。

在数据产生的过程前中后要注意:

数据产生之前要对数据产生进行规范,划定数据产生的范围和必须字段。

数据产生之中要对数据产生过程规范,划定数据产生的连续性和可用性。

数据产生之后要对数据最终结果进行规范,划定数据的可用结果和存储方式。

至于说数据特性的共存,主要体现在数据对多个数据的兼备性。比如:一个用户乘坐地铁的行为数据,在用户刷卡的时候体现为实时数据,而过了指定的单位时间就变成了历史的静态数据,而这历史的静态数据如果和用户的其他关联起来就变成了关系数据。

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值