大数据
文章平均质量分 68
昵称诚诚
stay hungry, stay foolish
展开
-
数据治理导图
收到一张图,保存一下来自网络,侵删.原创 2021-11-04 17:26:14 · 364 阅读 · 0 评论 -
数仓建设之指标体系搭建
一、 什么是指标体系1**. 指标体系定义**指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。指标主要分为结果型和过程型:结果型指标:用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场景下用户需求是否被满足过程型原创 2021-07-08 15:44:31 · 839 阅读 · 2 评论 -
Hive SQL底层执行过程详细剖析
看到一篇干货,copy一下本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。**Hive**Hive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。Hive直接访问存储在 HDFS 中转载 2021-06-18 16:24:33 · 630 阅读 · 0 评论 -
07 数据分析- 决策性分析
决策性分析通过数据分析、挖掘确定事件的最佳执行方案,以增加收入、降低成本、提升效率、控制风险的目的决策大决策决策频率低,单次决策影响大,价值高目标:提供决策支持,帮助决策人员做出最佳决策小决策决策频率高,单次决策影响小,总价值高目标:根据决策目标,通过决策系统给出最佳决策结果决策支持的分析步骤(大决策)1. 现状是什么 - 描述性分析2. 现状存在哪些问题 - 诊断性分析...原创 2020-04-26 00:13:04 · 740 阅读 · 0 评论 -
06数据分析 - 预测性分析
预测性分析分类 1. 决策树算法 计算步骤: 选择对象的一个特征,并根据这一特征对训练集进行分类 计算某特征分类后分类结果的混乱程度 (使用基尼系数,系数越小越接近根结点) ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200425112417134.png?x-oss-process=image/watermark,ty...原创 2020-04-25 13:00:43 · 1995 阅读 · 0 评论 -
05 数据分析 - 诊断性分析方法
诊断性分析: 根据业务逻辑,通过数据寻找引起最终结果的原因和可以改变未来结果的方法分析目的解决问题 坏的结果 -> 产生问题的原因和解决的方案发现机会 好的结果 -> 在机会出现的时候发现机会分析步骤List item确定问题的描述指标,以及指标的统计逻辑确定指标的类别,是基础指标还是复合指标对复合指标进行分解,分解到基础指标对指标的描述对象进行分解,分解到基...原创 2020-04-24 21:40:22 · 4171 阅读 · 0 评论 -
03 数据分析之分布分析
分布分析对数据的分布情况进行描述,从而对事件的发生规律有准确的认识定量数据目的是可以让我们了解:事件发生的一般结果是什么 --集中趋势事件结果的变化情况 – 离中趋势事件各个结果的发生概率是什么 --图形特征定量分析的指标:- 中心位置/集中趋势 :均值、中位数、众数、四分位数- 分散程度/离中趋势:方差、标准差、极差、变异系数{标准差/平均值...原创 2020-04-21 14:18:01 · 2093 阅读 · 0 评论 -
02 数据分析-数据指标与质量
数据指标根据数据统计或数据分析得到的反映或评价某一事件的数据指标的属性:业务属性 —— 名称、计算逻辑、描述对象、时效和查询权限等技术属性 —— 系统来源、取数字段、取数频率、加工规则指标的类别1. 按照统计方式分 基础指标: 是描述对象的直接统计结果,未经过转化的数据,如交易笔数、交易金额、交易用户数 复合指标: 建立在基础指标之上,通过一定的运算规则形成的反映事件结果的数据...原创 2020-04-20 11:29:16 · 559 阅读 · 0 评论 -
01 数据分析的四个等级
一. 描述性分析 - 监控现状 以级成事件的关键环节为基础,通过设置合理的指标对各环节进行量化,以达到还原事件的目的。 同时可以根据科学的评价标准,发现事件发生过程中的异常 分析目的:1. 描述现实 -——发生了什么 what who when where...原创 2020-04-19 23:17:37 · 1310 阅读 · 0 评论 -
Sqoop 日期字段导出报错
想用sqoop 把导入到hive的基础表导出到另一个数据库。 Sqoop 导出数据时报如下错误:java.lang.RuntimeException: Can't parse input data: '2018-07-18' at ........org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java...原创 2018-07-18 16:00:38 · 6274 阅读 · 1 评论 -
under replicated blocks 解决办法
ambari 监控页面显示under replicated blocks 显示红色。查了一下发现可以用hadoop fs 的 setrep命令解决这个问题。下面是运行 hadoop fs -help 时,对这个命令的解释-setrep [-R] [-w] <rep> <path> ... : Set the replication level of a fi...原创 2018-06-07 10:32:12 · 10549 阅读 · 1 评论 -
json日志文件通过spark转存成parquet方案
收集的业务数据为json格式,准备利用parquet 格式重新存储到hive表,以节约空间并方便后续通过spark 或 hive 进行分析查询。 (示例代码是用python) 具体步骤是: 1. 用spark读取json数据后,得到一个dataframepath = '/xx/xxx/xxx.json'df = sqlContext.read.json(path)2. dataframe 经原创 2017-08-15 16:01:37 · 5152 阅读 · 5 评论