笔记
问道2020
这个作者很懒,什么都没留下…
展开
-
数据权限管控
“功能权限”控制的是用户登录系统后能看到哪些模块,操作哪些按钮;而“数据权限”控制的是用户能够看到的数据范围,所谓数据范围,不是指能看到的数据字段,而是指能查出来的数据集合。例如,针对订单管理列表页,数据范围可能是某个城市的全部订单,也可能是某个门店的全部订单,“某个城市”和“某个门店”决定了2种不同的数据范围。针对数据权限,常见的实现方案有两种:通过组织机构树实现,或者是通过数据共享配置实现。方案一,通过组织机构树实现。这种方案是根据用户所在组织机构树中的节点位置,来判断用户能够操作的数据范围,利用组原创 2021-01-23 23:51:29 · 1100 阅读 · 0 评论 -
什么是领域模型?什么是数据模型
领域模型关注的是领域知识,是业务领域的核心实体,体现了问题域里面的关键概念,以及概念之间的联系。领域模型建模的关键是看模型能否显性化、清晰的表达业务语义,扩展性是其次。数据模型关注的是数据存储,所有的业务都离不开数据,都离不开对数据的CRUD,数据模型建模的决策因素主要是扩展性、性能等非功能属性,无需过分考虑业务语义的表征能力。按照Robert在《整洁架构》里面的观点,领域模型是核心,数据模型是技术细节。然而现实情况是,二者都很重要。这两个模型之所以容易被混淆,是因为两者都强调实体(Entity),都原创 2021-01-20 21:05:14 · 1951 阅读 · 1 评论 -
请说一下你理解的主数据
“主数据”并不是一个很新鲜的概念,提出来已经有一些年头了,但却是比较符合当下潮流的概念。“主数据”所对应的,就是“人财物事”的数字化,以及背后应用到的整套技术体系。如果组织要实现数字化,那么主数据的概念,就绕不过去。在2018年中国信通院牵头编写的《主数据管理实践白皮书(1.0版)》中,主数据(MDM)定义的概念如下:“指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。主数据相对于交易数据而言,属性更加稳定,准确度要求更高,唯一识别。”所以,数据从业者平时接触的很多数据,比如流量报原创 2021-01-19 21:37:44 · 243 阅读 · 0 评论 -
hive的几种存储格式
Text/CSVcsv文件不支持块压缩,所以在Hadoop中使用压缩的CSV文件经常会带来很低的读性能。无法存储元数据。新的字段只能追加到所有字段的尾部,并且不能产出已经存在的字段。支持有限的模式演进。JSON能够存储元数据。不支持块压缩。第三方的JSON SerDe工具能解决这些问题。全面支持模式演进。AvroAvro是Hadoop平台多功能的数据存储格式。它能够存储元数据,还可以把元数据单独存储到一个文件中。支持模式演进。因为Avro可以通过定义一个新的独立的模式文件来重命名、增加、删除和修改原创 2021-01-18 23:33:29 · 319 阅读 · 0 评论 -
说说你了解的exactly once
流处理(streaming process),有时也被称为事件处理(event processing),可以被简洁地描述为对于一个无限的数据或事件序列的连续处理。一个流,或事件,处理应用可以或多或少地由一个有向图,通常是一个有向无环图(DAG),来表达。在这样一个图中,每条边表示一个数据或事件流,而每个顶点表示使用应用定义好的逻辑来处理来自相邻边的数据或事件的算子。其中有两种特殊的顶点,通常被称作sources与sinks。Sources消费外部数据/事件并将其注入到应用当中,而sinks通常收集由应用产生原创 2021-01-17 21:40:48 · 172 阅读 · 0 评论 -
说一说有哪些类型的OLAP数仓?
1.按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。偏实时的分析型数仓,Cloudera的Impala、Facebook的Presto和Pivotal的GreenPlum均属于这类系统;如果超过百亿级别数据量,那么一般选择离线数仓,如使用Hive或Spark等(SparkSQL3.0看起来性能提升很明显);对于数据量很小的情况,虽然是分析类应用,也可以直接选择普通的关系型数据库,比如MySQL等,“杀鸡焉用牛刀”。2.按建模类型划分下面我们主要关注数据量中等的分析原创 2021-01-16 19:33:28 · 880 阅读 · 0 评论 -
构建企业指标字典
1:目前各个数据集市中应用层数据存在指标统计粒度汇总不清晰,命名不规范,没有形成完善的按粒度统一的公共数据层,同粒度整合,实现数据的复用,不能只为了算指标而算指标,保证数据只加工一次。2:指标越来越多可能会暴露什么问题?相同口径指标名称不一致?指标口径描述不清晰,复用难?指标名难理解?计算逻辑不清晰?指标开发后,长时间遗忘,暴露出数据问题后增加解决问题的时间?如何解决:对指标进行全局梳理,输出企业的指标字典。最后形成一个全局业务口径一致的指标字典。让使用指标的人,可以通过指标字典,快速了解指标的业务含义原创 2021-01-14 20:19:20 · 445 阅读 · 0 评论 -
Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12为例
什么是Hive Catalog我们知道,Hive使用Hive Metastore(HMS)存储元数据信息,使用关系型数据库来持久化存储这些信息。所以,Flink集成Hive需要打通Hive的metastore,去管理Flink的元数据,这就是Hive Catalog的功能。Hive Catalog的主要作用是使用Hive MetaStore去管理Flink的元数据。Hive Catalog可以将元数据进行持久化,这样后续的操作就可以反复使用这些表的元数据,而不用每次使用时都要重新注册。如果不去持久化ca原创 2021-01-13 21:42:36 · 668 阅读 · 0 评论