数据分析-前置条件(采集、存储、治理)

数据流程:数据采集-数据存储-数据治理-数据分析-数据产品
当完成数据采集、数据存储、数据治理之后,结合业务进行数据分析,而我们又可以从数据分析中进行总结、提炼,将数据分析的内容转化为数据产品。

只有有了数据才能在数据中挖掘价值,无论是混乱无脏的数据还是整齐划一的数据都可以从中挖掘价值,但定义不清楚、定义错误、缺失严重等等问题都会指数级的加大数据价值的挖掘。以下将会讲一下数据如何采集、有哪些存储介质,遇到的数据问题又如何去治理?

一、数据采集
数据采集:外部采集以及内部采集,以下只讲内部采集
内部采集可以分为前端埋点和后端埋点
前端埋点又可以分为无埋点和有埋点,无埋点指的通过SDK的方式进行全方位进行埋点,而有埋点则需要前端同事按照规则有选择进行埋点;
前端埋点又分为业务埋点和操作埋点,业务埋点指的是有经过重新定义以及计算的,比如登录时长,而操作埋点指的是用户每点击一次采集回来的何时何人何地做了什么点击。

采集注意的问题:采集数据验证,确保定义的数据和实际产生的数据是一致的。

二、数据存储
数据采集回来之后需要存储,存储的介质有多种,包括mysql、oracle、ES、kudu等
1) mysql:关系型数据库,开源的数据库,行式存储
2) oracle:关系型数据库,付费的数据库,行式存储
3) mangdb:非关系型数据库
4) ES: 非关系型数据库,可存储大量的数据,可进行全文检索.通过可视化软件,比如kibana,可以实现全文检索或者根据key进行统计。
5) KUDU: hadoop平台上的列式存储系统,既支持随机读写、又支持 OLAP 分析

以上查询的语法都有点差异,其中mysql、oracle、kudu的语法相似度较高。

三、数据治理
脏数据的影响:数据分析难度大、业务应用易错性高
脏数据的类型:缺失、重复、错误、不可用
解决办法:针对脏数据类型进行数据治理
1) 数据缺失:采用其他字段数据进行补充,比如用户信息的性别可以通过身份证进行补充;采用统计的方式进行补充,比如采用平均值、众数、零,又或者通过数据挖掘的方式,比如采用聚合的方式,获取对应聚合类的众数或者直接采用回归方式进行预测填充
2) 数据重复:去掉重复记录,但是又一个问题,当数据存在多个表达形式时,比如广州和广州市,就需要中文字段的数据采用映射表的形式,避免同一个意思多一个表达形式的影响
3) 数据错误:数据错误来自于不满足字段的定义范围,比如年龄超过200,采用方式可以类同与数据缺失,把数据错误当做数据缺失处理
4) 数据不可用:数据正确但是不可用。存在于同一个意思多个表达形式中,比如海淀区与北京海淀区,可以通过模糊匹配的形式或者通过自然语言处理进行规范化调整

以上办法存在工作量大、治标不治本的缺点,最好的办法还是约束输入,规范输出。
1)约束输入:你永远想不到用户会输入哪些值,所以别给用户太多发挥的空间,做好约束工作。该用户填写的,系统必须设置为“必填”;值有固定选项的,一定用列表让用户选,别再手工输入;系统在录入提交时就做好检查,格式不对,值不在正常范围内,直接报错的情况必须让用户重新输入;设计录入表单时尽量原子化字段,比如上面说的地址,设计时就分成国家、省、市、区、详细地址等多个字段,避免事后拆分;录入数据保存的数据表也尽量统一,不要产生有大量相同数据的表,造成数据重复隐患。

2)规范输出:统一语义,做一个公司级别的语义字典(不是数据库的数据字典)。所有给人看的报告上的指标名称,都要在语义字典中备案,语义字典明确定义其统计口径和含义。不同统计口径的指标必须用不同的名词。如果发现一个词已经在语义字典中有了,就必须走流程申请注册一个新词到语义字典。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值