UCS(优势)—大数据领域全景解析

什么是数据

  数据是一种对客观事物的逻辑归纳,是事实或观察的结果。随着科学技术的发展,数据的概念内涵越来越广泛包括数值,文本,声音,图像,视频。常见的数据有三种分类,分别是结构属性分类、连续性特征分类与测量尺度分类。

  根据数据存储形式的不同,数据可以分为结构化数据与分结构化数据两种,它们不仅存储形式不同,在数据处理和数据分析的方法上也大相径庭。

  结构化数据:成熟数据库所存储的数据类型,如企业ERP数据、企业财务系统数据、政府市民卡数据等,能够存储在数据库中的数据能够很方便的进行检索、分析和展示使用;

  非结构化数据:相对于结构化数据而言,非结构化数据没有统一的规则,涉及到了音视频、图片、文本等形式,例如爬虫抓取的新闻数据、SDK采集的日志数据等,需要通过一定的方法,将这都些数据量化为结构化数据,才能够进行有效的分析。

  根据数据连续的属性不同,数据又可以分为连续型数据与离散型数据。连续型数据与离散型数据的区别,可以用线、点来区分理解。

  连续型数据:数据的取值从理论上讲是不间断的,在任意区间内都可以无限取值。例如商品的价格、水果的重量等。

  离散型数据:离散型数据也被成为不连续数据,取值是中立的,例如AA制聚餐,3个人花费100元,那么人均就是33.333……元,无法做到绝对平均。

  数据的测量尺度分类,可以理解为一种测量工具,像尺子那样刻画数据的精细度。

  定类数据:特征数据仅能标记事物的类别,无法描述大小、高度、重量等信息,例如工业产品分类中的零食、日化等区分;

  定序数据:能够对事物进行分类,比较事物之间的大小差异,但不能做四则运算,例如考试成绩的排名;

  定距数据:由定距尺度计量形成的,表现为数值,可以进行加减运算,是对事物进行精确描述的数据,但不能做乘除运算,例如高考的总分,是分科得分的加和;

  定比数据:数据的最高级,既有测量单位,也有绝对零点(可以取值为0),可以做乘除运算,如商品的销售额。

  

  数据统计的要素

  数据的统计过程,主要是为了更好的体现数据的流转过程,而数据统计的要素,就在于如何清晰的描述这个过程。

  第一个要素是:统计主体,统计的业务属性。统计主体指数据需要描述或分析的对象,以及该对象所涉及到的所有过程的集合。例如在电商系统中,需要描述交易的整个过程,包括商品、下单、支付、退换货等过程,那么订单就可以作为这个过程中的统计主体,串联起整个过程。需要注意的是,统计主体可以是人,也可以是物、甚至可以是任何抽象出来的概念。

  第二个要素是:统计维度,统计的空间属性。维度是维度建模最重要的建设项目,是描述平台表及业务过程的重要表述方式。在大数据领域,统计维度通常来自于业务概念的抽象,比如商品类目、属性等信息。对于一张汇总层的表来说,除了统计指标,其余所有的信息,都可以看作是统计维度。

  第三个要素是:统计周期,统计的时间属性。包括时间粒度、生命周期等过程,可以是实时发生的事实,也可以是按时间进行累计的事实。通常统计周期有小时、日、周、季度、年的区分。

  第四个要素是:统计指标,统计的行为度量。一般由指标名称和指标数值两部分组成,在维度建模中提倡的方式是:指标=原子指标+派生指标+业务限定+统计周期+维度。

来源 | 币圈

编译 | 高噢

责编 | 币安app下载

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值