![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 77
Happy编程
这个作者很懒,什么都没留下…
展开
-
大数据&数据中台&数据治理系列
本系列整理了大数据以及大数据治理相关介绍文章,欢迎大家收藏和留言讨论。(持续更新中...)原创 2022-12-05 20:16:45 · 488 阅读 · 0 评论 -
大数据_数据中台_数据汇聚联通
目录一、数据采集、汇聚的方法和工具1、线上行为采集2、线下行为采集3、互联网数据采集4、内部数据汇聚二、数据交换产品1、数据源管理2、离线数据交换3、实时数据交换三、数据存储的选择1、在线与离线2、OLTP与OLAP3、存储技术 构建企业级的数据中台第一步就是要实现各个业务系统的数据的互联互通,从物理上打破数据孤岛。主要通过数据汇聚和交换的能力来实现。在面对不同场景,根据数据类型、数据存储要求等进行不同方案的选择。①客户端埋点全埋点:在终端设备上记录用户所有的操作行为,一般在内嵌SDK做一些初原创 2022-12-05 20:15:21 · 2716 阅读 · 0 评论 -
大数据_数据中台建设的成熟度评估模型
数据应用能力成熟度可以总结为统计分析、决策支持、数据驱动、运营优化四个结阶段。针对不同的阶段,从企业战略定位、企业数据形态、数据应用场景、数据应用工具、企业组织架构等多个方面、不同特征维度进行参考判定,也就构成了数据应用成熟度模型评估模型。依据这是个阶段的划分准备,企业可以进行数据应用成熟度的自我评测,数据应用能力成熟度越高,则代表数据对业务的支撑能力越强;应用成熟度越低,则意味业务对数据的依赖程度越低。原创 2022-12-01 20:29:10 · 1014 阅读 · 0 评论 -
大数据_数据中台建设与架构
数据中台的使命就是持续让数据用起来,它的根本性特点就是把“数据资产”作为基础要素独立出来,让成为资产的数据作为生产资料融入业务价值创造过程,持续产生价值,形成业务和数据的闭环。数据中台包的架构含数据汇聚、数据开发、数据体系、数据资产管理、数据服务体系、运营体系和安全管理等。数据中台的建设,需要从组织、保障、准则、内容、步骤等五个层面考虑,以确保数据中台建设和实施如期完成。:通过理现状、立架构、建资产、用数据、做运营等5个关键行动控制中台建设关键节点的质量。原创 2022-11-27 13:22:25 · 1293 阅读 · 0 评论 -
大数据_什么是数据中台?
数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套可持续不断把数据变成资产并服务业务的机制。数据来源于业务、并反哺业务,不断循环迭代,实现数据可见、可用、可运营。每家企业的业务和数据各不相同,业务对数据的诉求也不相同,所以没有任何两家企业的数据中台是完全相同的。原创 2022-11-26 16:51:36 · 5163 阅读 · 3 评论 -
大数据_数据中台建设五步走
这些数据本就有数据化的含义,同时这些数据又会进入数据化框架体系,继续通过计算产出更多的数据和更大的价值。应该按照什么顺序实现这些数据应用:我们要对数据应用建立评估模型,评估的维度包括数据应用是否可以实现、数据应用的业务价值、数据应用的实现成本这三个主要方面。我们在数据应用实施前应该充分了解企业当前的数据源情况,包括数据种类、每种数据的具体属性、数据内容的质量等问题。(1)建模及开发规范。建模及开发规范包括数据仓库模型设计规范的制定,数据开发规范的制定,如何避免当前较为常见的数据开发混乱、难以运维的情况。原创 2022-11-23 20:00:59 · 1622 阅读 · 0 评论 -
大数据_数据中台_数据分层
(Operate Data Store),ODS层数据是数据仓库的第一层数据,是业务数据库的原始数据的复制,例如,每条产品线的用户信息、订单信息等数据一般都是原封不动地同步到数据中台的ODS层中。ODS层的作用是在业务系统和数据仓库之间形成一个隔离层,在数据中台进行计算任务时,可以以ODS层的数据为基础进行计算,从而不给业务数据库增加负担。原创 2022-11-23 19:53:25 · 1702 阅读 · 0 评论 -
大数据_YARN的工作原理
2、向后兼容问题: 采用MRv1的旧API写的APP, 可以直接使用之前的 Jar包运行于MRv2上, 但采用MRv1;但采用MRv1的新API写的APP, 不可以如此, 需要使用MRv2编程库重新编译并修改不兼容的参数和 返回值。下面是MRv1和MRv2的介绍。下图的数字表示了YARN的从client提交任务,到申请资源,到创建task,以及task完成后返回结果RM的处理流程。1、Client与RM通信的协议,ApplicationClientProtocol,作业的提交,应用程序的状态等。原创 2022-10-02 15:56:19 · 1769 阅读 · 0 评论 -
大数据_HDFS原理
Block 保存在那些 DataNode 节点上(数据并非保存在 NameNode 磁 盘上的,它是在 DataNode 启动时上报给 NameNode 的,NameNode 接收到之后 将这些信息保存在内存中)NameNode 的 metadata 信息在 NameNode 启动后加载到内存中,Metadata 存储到磁盘上的文件名称为 fsimage,Block 的位置信息不会保存在 fsimage 中,Edits 文件记录了客户端操作 fsimage 的日志,对文件的增删改等。③ 适合大数据的处理。原创 2022-10-01 22:52:45 · 1272 阅读 · 0 评论 -
大数据_Spark3.0新特性
所有这些自适应手段都是在查询计划执行时运用的,如图 3 所示。查询任务中的 Spark 操作是串起来在并行进程中执行的,但数据混洗或数据广播会打断流水线的执行,因为一个执行阶段的输出需要作为下一个执行阶段的输入。简单地说,这种二次优化是动态执行的,如图 3 所示,目标是动态合并混洗分区,减少读取混洗输出数据所需要的归约任务的数量,在合适的时候转换连接策略,并且解决连接时出现的数据倾斜问题。动态分区裁剪优化技术的关键是,将维度表过滤结果注入扫描事实表的操作,使其成为扫描时的过滤条件,从而限制读取的数据量.原创 2022-09-06 19:40:10 · 2007 阅读 · 0 评论 -
大数据_湖仓一体:下一代存储解决方案
湖仓一体可以存储、优化、分析和访问所有类型的数据,无论数据是结构化的、半结构化的,还是非结构化的,这一点和数据库不同,但和数据湖差不多。湖仓一体可以存储、优化、分析和访问所有类型的数据,无论数据是结构化的、半结构化的,还是非结构化的,这一点和数据库不同,但和数据湖差不多。新的系统设计让湖仓一体成为可能,从而直接以低成本提供类似数据库的数据管理特性,同时具有数据湖的可伸缩存储的特性。新的系统设计让湖仓一体成为可能,从而直接以低成本提供类似数据库的数据管理特性,同时具有数据湖的可伸缩存储的特性。原创 2022-09-05 19:59:45 · 2599 阅读 · 2 评论 -
大数据_Spark常见组件
它还会将所有的 Spark 操作转换为 DAG 运算,并负责调度,还要将这些计算分成任务分发到 Spark 执行器上。因为集群管理器不需要知道它实际在哪里运行(只要能管理Spark 的执行器,并满足资源请求就行),所以Spark 可以部署在 Apache Hadoop YARN 和Kubernetes 等一些常见环境中,并且以不同的模式运行。出于数据本地性要求,在分配任务时,根据要读取的数据分区与各Spark 执行器在网络上的远近,最好将任务分配到最近的 Spark 执行器上。分区可以实现高效的并行执行。原创 2022-09-04 09:15:18 · 1462 阅读 · 0 评论