大数据
文章平均质量分 87
记录个人学习
偷偷学习被我发现
记录个人点滴
展开
-
数据仓库的基本概念、基本特征、体系结构
个人看书学习心得及日常复习思考记录,个人随笔。原创 2024-03-13 01:05:52 · 1075 阅读 · 0 评论 -
数据处理分类、数据仓库产生原因
在关系型数据库中,一个事务可以是一条SQL语句、一组SQL语句或者整个程序。原创 2024-03-06 00:29:42 · 1603 阅读 · 0 评论 -
ETL与ELT理解
ELT( Extract-Load-Transform),在ELT架构中,数据的整个加工过程都在目标和源的数据库之间流动,ELT协调相关的数据库系统来执行相关的应用,数据加工过程既可以在源数据库端执行,也可以在目标数据仓库端执行(主要取决于系统的架构设计和数据属性)。在实际场景中这两种模式普遍是共存的。对于数据体量较大而且转换逻辑比较复杂的场景可以采取ELT处理,例如前面提到的数据加密场景。2、加载流程就和ETL不一样了,T和L进行了位置置换,这里是先加载到目标系统,大家也可以理解成是数据入了数仓。原创 2023-09-16 15:33:39 · 388 阅读 · 0 评论 -
GreenPlum的gpfdist使用与原理流程分析
1、insert 该方式通过 sql 语句,把数据一条一条插入至表中。这种方式,不仅读取数据慢(一条一条读取),且数据需要经过 master 节点后再分发给所有 segment,所以 master 制约着导入性能。2、copy 该方式实现了数据的批量读取,但数据依然需要通过 master 节点,所以 master 制约着导入性能,无法实现并行、高效的数据加载。3、gpfdist 该方式使用 gpfdist 协议,segment 与 数据源直连,数据读取后直接发送给每个 segment。原创 2023-09-01 18:52:32 · 1173 阅读 · 0 评论 -
MapReduce基础原理、MR与MPP区别
MapReduce(MR)本质上是一种用于数据处理的编程模型;MapReduce用于海量数据的计算HDFS用于海量数据的存储(Hadoop Distributed File System,Hadoop分布式文件系统)。Hadoop MapReduce 是一个编程框架,Hadoop环境中,可运行用各种语言编写的MapReduce程序,用于创建在大型商用硬件集群上处理大量数据的应用程序,类似于JRE环境,可以在这个架构下开发应用程序。MapReduce 程序本质上并行,本质是通过并行计算提升算力。原创 2023-08-06 01:43:21 · 1161 阅读 · 0 评论 -
三种数据库架构模式
用的是共享存储,做到了数据共享,可通过增加节点来提高并行处理的能力,扩展能力较好,使用Storage Area Network (SAN),光纤通道连接到多个服务器的磁盘阵列,降低网络消耗,提高数据读取的效率,常用于并发量较高的OLTP应用。,位于不同服务器系统的DM实例同时访问同一个数据库,节点之间通过私有网络进行通信,所有的控制文件、联机日志和数据文件存放在共享的设备上,能够被集群中的所有节点同时访问。,并行处理能力是最差的,一般不考虑大规模的并发需求,架构比较简单,一般的应用需求基本都能满足。原创 2023-07-24 20:09:06 · 289 阅读 · 0 评论 -
MPP基础原理
最近忙于工作,有一段时间没更新自己的博客了,也就意味着囤积了一波需要梳理总结并记录的知识点,但可以保证的是所有都是零星的知识点,不会涉及工作内容。MPP (Massively Parallel Processing),即大规模并行处理。原创 2023-07-15 15:49:09 · 2187 阅读 · 0 评论 -
OLTP与OLAP数据库
没有绑定变量的SQL会对OLTP数据库造成极大的性能影响之外,还有一些因素也会导致数据库的性能下降,比如热块(hotblock)的问题,当一个块被多个用户同时读取的时候,OLTP为了维护数据的一致性,需要使用一种称为Iatch的东西来串行化用户的操作。因为这些区别,在数据库设计的阶段,弄清楚数据库类型是至关重要的,只有在这个前提之下,才能够讨论数据库的具体设计,否则设计必然是盲目的,或者说设计出来的数据库可能造成瘫痪,系统资源严重被使用,系统过负荷运行,或者造成严重的等待事件。原创 2023-05-20 10:12:08 · 791 阅读 · 0 评论 -
数据全生命周期管理
所谓的数据热度,根据价值密度、访问频次、使用方式、时效性等级,将数据划分为热数据、温数据、冷数据和冰数据。数据热度应随着时间的推移,数据价值会变化,应动态更新数据热度等级,推动数据从产生到销毁数据生命周期管理。原创 2023-05-20 09:07:42 · 932 阅读 · 0 评论 -
Kettle体系结构及源码解析
ETL是数据抽取(Extract)、转换(Transform)、装载(Load)的过程。Kettle是一款国外开源的ETL工具,有两种脚本文件transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Job:一个作业,由不同逻辑功能的entry组件构成,数据从一个entry组件传递到另一个entry组件,并在entry组件中进行相应的处理。Transformation:完成针对数据的基础转换,即一个数据转换过程。原创 2023-03-10 00:16:51 · 3128 阅读 · 0 评论 -
ceph介绍、原理、架构、算法...个人学习记录
之前公司安排出差支援非结构化项目,采用springcloud+(redis+mysql数据冷热处理)+s3+es+ceph+kafka还涉及一些区块链技术等等…,在与大佬的沟通交流下对ceph产生了兴趣,私下学习记录一下;后续工作之余会采用上面相关技术栈手动实现不带公司业务的项目,可能不会分享出来;ceph集群部署这篇记录学习ceph的相关知识ceph是⼀种分布式存储系统,可以将多台服务器组成⼀个超⼤集群,把这些机器中的磁盘资源整合到⼀块⼉,形成⼀个⼤的资源池,⽀持PB级别,然后按需分配给客户端应⽤使⽤。原创 2023-03-04 16:39:57 · 814 阅读 · 1 评论 -
ceph集群部署
前段时间支援了一个非结构化的项目,涉及到ceph对象存储,私下学一下,记录学习记录,这篇主要讲在centos7上的linux上部署ceph集群。系统:centos7上的linux版本:ceph15.2.13规划:主机名IP组件ceph1ceph2ceph3注意ceph16版本已经不支持ceph-deploy。原创 2023-02-24 22:13:18 · 587 阅读 · 1 评论 -
Amazon S3 API java uitl
【代码】Amazon S3 API java uitl。原创 2023-02-19 22:56:43 · 684 阅读 · 0 评论 -
Amazon S3简介
Amazon 最早推出的两项云服务:EC2 和 S3。Amazon S3:Amazon Simple Storage Service(亚马逊简易存储服务);EC2 :Elastic Compute Cloud(弹性计算云,即云中的虚拟服务器);Amazon S3支持REST风格,即通过GET、PUT、DELETE、POST、PATCH操作服务端的资源;Amazon S3 操作:Service,Buckets和Objects。原创 2023-02-17 16:04:15 · 2420 阅读 · 0 评论