大数据存储
文章平均质量分 84
MyySophia
工作只是你的权利,而只有你的行为才能为你赢得尊重
展开
-
Linux- rsync企业级实战
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Pt4XH6aZ-1673600259248)(null)]rsync(Remote Sync,远程同步)是一个开源的快速备份工具,可以在不同主机之间镜像同步整个目录树,支持增量备份,并保持链接和权限,且采用优化的同步算法,传输前执行压缩,因此非常适用于异地备份、镜像服务器等应用。rsync 的官方站点的网址是,目前最新版本是 3.1.3,由 Wayne Davison 进行维护。原创 2023-01-13 16:58:44 · 825 阅读 · 0 评论 -
K8s不同node如何共享存储&&nfs 搭建(markdown版本)
pod中产生了数据,数据通过存储插件(通常是一个容器)将数据写入远程的分布式存储系统ceph,当pod迁移或是升级K8s集群 ,即无论你在其他哪个宿主机上启动新的容器,都可以请求挂载指定的持久化存储卷,从而访问到数据卷里保存的内容。NFS可以实现部分功能,对于动态扩容nfs-provision目前不支持ceph功能就比较丰富了,还提供 对象存储和块存储。原创 2022-11-07 22:38:14 · 660 阅读 · 0 评论 -
Presto在大数据领域的实践和探索
Presto我是谁?我从哪里来?要到哪里去?Presto is an open source distributed SQL query engine for running interactive analytic queries against data sources of all sizes ranging from gigabytes to petabytes.Presto allows querying data where it lives, including Hive, Cassa转载 2021-10-26 13:48:31 · 694 阅读 · 0 评论 -
Greenplum MPP 与 Hadoop大PK?
MPP和Hadoop都是为了解决大规模数据的并行计算而出现的技术,两种技术的相似点在于: 分布式存储数据在多个节点服务器上 采用分布式并行计算框架 支持横向扩展来提高整体的计算能力和存储容量 都支持X86开放集群架构 但两种技术在数据存储和计算方法上,也存在很多显而易见的差异: MPP按照关系数据库行列表方式存储数据(有模式),Hadoop按照文件切片方式分布式存储(无模式) 两者采用的数据分布机制不同,MPP采用Hash分布...原创 2021-10-26 13:38:05 · 3192 阅读 · 0 评论 -
大数据≠hadoop,数据中台选型你应该看到这些分布式数据库
作者:蚂蚁来源:数据中台研习社长期以来,由于以hadoop为核心的生态系统霸占了大数据的各个角度,以至于我们以为大数据就是hadoop。诚然,自hadoop诞生以来,hive+hbase掀起第一个高潮,而后Spark和Flink更是火爆到不行,声浪一阵盖过一阵。尽管hadoop在高并发、海量数据处理等方面有着无可比拟的优势,但是在OLAP场景下的数据分析方面始终不如人意。 在hadoop生态体系中,可以用作OLAP分析的引擎主要有以下几个:1)Hive Hive ...转载 2021-09-17 15:18:11 · 750 阅读 · 0 评论 -
什么是flume?
快速了解flumeflume中的eventflume三大核心组件flume数据采集flume高级组件Source InterceptorsChannel SelectorsSink Processors需要源文件的请自行下载:CSDN原创 2021-09-11 21:59:56 · 184 阅读 · 0 评论 -
MapReduce之数据倾斜问题
MapReduce是分为Map阶段和Reduce阶段,其实提高执行效率就是提高这两个阶段的执行效 率默认情况下Map阶段中Map任务的个数是和数据的InputSplit相关的,InputSplit的个数一般是和Block块是有关联的,所以可以认为Map任务的个数和数据的block块个数有关系,针对Map任务的个数我们一般 是不需要干预的。如果遇到海量小文件,可以考虑把小文件合并成大文件。使用hadoop提供的两个类型可以解决。Reduce阶段:默认情况下reduce的个数是1个,所以现在Map.原创 2021-09-01 22:53:32 · 516 阅读 · 0 评论 -
MapReduce之小文件问题
1. 四种数据库的比较数据库 描述 Greenplum Teradata Presto Clickhouse 开源大规模并行数据分析引擎。借助MPP架构,在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。应用广泛。大型数据仓库系统,产品成熟,价格昂贵。用于证券系统。分布式SQL查询引擎, 专门进行高速、实时的数据分析。本身不存储数据,但是可以接...原创 2021-08-31 22:36:38 · 347 阅读 · 0 评论 -
MapReduce系统学习(2)
Shuffle过程详解shuffer是一个网络拷贝的过程,是指通过网络把数据从map端拷贝到reduce端的过程.map阶段最左边有一个inputsplit,最终会产生一个map任务,map任务在执行的时候会k1,v1转化为k2,v2,这些数据会先临时存储到一个内存缓冲区中,这个内存缓冲区的大小默认是100M(io.sort.mb属性),当达到内存缓冲区大小的80%(io.sort.spill.percent)也就是80M的时候,会把内存中的数据溢写到本地磁盘中(mapred.local....原创 2021-08-24 22:03:18 · 623 阅读 · 1 评论 -
MapReduce系统学习
新思潮: 移动计算比移动数据更划算,因为大量数据的时间耗时主要是在网络I/O 和磁盘I/O.案例:如果copy一个50G的内容,就算是内网的两台机器也很慢,如果是用U盘,那就比较快。为什么呢? 因为没有网络IO,而磁盘IO一直是存在的。MapReduce原理剖析map端做的是局部的聚合排序,reduce是全局的聚合和排序。reduce是处理多个map多个分区的聚合结果。不可以混淆两者...原创 2021-08-15 00:02:14 · 1225 阅读 · 3 评论 -
hadoop的系统认知
目录什么是HadoopHadoop发行版介绍Hadoop版本演变历史Hadoop3.x的细节优化Hadoop三大核心组件介绍Hadoop集群安装部署HadooHDFS介绍HDFS(HadoopDistributed FileSystem)HDFS的Shell介绍HDFS的常见Shell操作HDFS体系结构NameNode介绍SecondaryNameNode介绍DataNode介绍NameNode总结HDFS的回收站HDF...原创 2021-08-11 12:00:23 · 248 阅读 · 0 评论 -
Flink on Yarn的两种运行方式
第一种【yarn-session.sh(开辟资源)+flink run(提交任务)】启动一个一直运行的flink集群 ./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024 [-d]附着到一个已存在的flink yarn session ./bin/yarn-session.sh -id application_1463870264508_0029 执行任务./bin/flink run ./examples/batch/WordCount.jar -...原创 2021-08-09 22:38:38 · 756 阅读 · 0 评论 -
06 | 新技术层出不穷,HDFS依然是存储的王者
目录HDFS是如何实现大数据高速、可靠的存储和访问的?HDFS是如何保证存储的高可用性呢?如何保证整个软件系统依然是可用的?Google大数据“三驾马车”的第一驾是GFS(Google文件系统),而Hadoop的第一个产品是HDFS,可以说分布式文件存储是分布式计算的基础,也可见分布式文件存储的重要性。如果我们将大数据计算比作烹饪,那么数据就是食材,而Hadoop分布式文件系统HDFS就是烧菜的那口大锅。厨师来来往往,食材进进出出,各种菜肴层出不穷,而不...原创 2021-08-05 22:47:29 · 961 阅读 · 4 评论 -
05 | 从RAID看垂直伸缩到水平伸缩的演化
大数据技术主要是要解决大规模数据的计算处理问题,但是我们要想对数据进行计算,首先要解决的其实是大规模数据的存储问题。我这里有一个直观又现实的问题想问你:如果一个文件的大小超过了一张磁盘的大小,你该如何存储?我的答案是,单机时代,主要的解决方案是RAID;分布式时代,主要解决方案是分布式文件系统。其实不论是在单机时代还是分布式时代,大规模数据存储都需要解决几个核心问题,这些问题都是什么呢?总结一下,主要有以下三个方面。1.数据存储容量的问题。既然大数据要解决的是数以PB计的数...原创 2021-08-04 22:13:32 · 273 阅读 · 0 评论 -
03 | 大数据应用领域:数据驱动一切
大数据在医疗健康领域的应用健康医疗领域是最近几年获得最多创业者和投资人青睐的大数据领域。为什么这么说呢?首先,医疗健康领域会产生大量的数据;其次,医疗健康领域有一个万亿级的市场规模;最关键的是,医疗健康领域里很多工作依赖人的经验,而这正是机器学习的强项。1.医学影像智能识别图像识别是机器学习获得的重大突破之一,使用大量的图片数据进行深度机器学习训练,机器可以识别出特定的图像元素,比如猫或者人脸,当然也可以识别出病理特征。比如X光片里的异常病灶位置,是可以通过机器学习智能...原创 2021-08-04 22:08:30 · 176 阅读 · 0 评论 -
04 | 移动计算比移动数据更划算
大数据技术和传统的软件开发技术在架构思路上有很大不同,大数据技术更为关注数据,所以相关的架构设计也围绕数据展开,如何存储、计算、传输大规模的数据是要考虑的核心要素。传统的软件计算处理模型,都是“输入->计算->输出”模型。也就是说,一个程序给它传入一些数据也好,它自己从某个地方读取一些数据也好,总是先有一些输入数据,然后对这些数据进行计算处理,最后得到输出结果。但是在互联网大数据时代,需要计算处理的数据量急速膨胀。一来是因为互联网用户数远远超过传统企业的用户,...原创 2021-08-04 22:06:15 · 357 阅读 · 0 评论 -
大数据应用发展史:从搜索引擎到人工智能
目录大数据应用的搜索引擎时代大数据应用的数据仓库时代大数据应用的数据挖掘时代大数据应用的机器学习时代小结从最开始的 Google 在搜索引擎中开始使用大数据技术,到现在无处不在的各种人工智能应用,伴随着大数据技术的发展,大数据应用也从曲高和寡走到了今天的遍地开花。Google 从最开始发表大数据划时代论文的时候,也许自己也没有想到,自己开启了一个大数据的新时代。今天大数据和人工智能的种种成就,离不开全球数百万大数据从业者的努 力,这其中也包括你和我。历史也许由天才开...原创 2021-08-03 21:31:11 · 397 阅读 · 0 评论 -
大数据技术发展史:大数据的前世今生
从我的角度而言,不管是学习某门技术,还是讨论某个事情,最好的方式一定不是一头扎到具体细节里,而是应该从时空的角度先了解它的来龙去脉,以及它为什么会演进成为现在的状态。当你深刻理解了这些前因后果之后,再去看现状,就会明朗很多,也能更直接地看到现状背后的本质。说实话,这对于我们理解技术、学习技术而言,同等重要。今天我们常说的大数据技术,其实起源于 Google 在 2004 年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统 GFS、大数据分布式计算框架MapReduce 和 No原创 2021-08-03 21:24:24 · 2428 阅读 · 0 评论 -
Centos7 Hadoop分布式集群安装
目录hadoop版本介绍hadoop组件介绍hdfs架构分析namenode负责datanode负责yarn架构分析mapreduce架构分析hadoop特点hadoop生态圈介绍服务器节点规划hadoop安装脚本hadoop版本介绍目前,hadoop已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以针对hadoop也出现了很多版本Apache hadoop 官方版本Cloudera hadoop(CDH) 使用下...原创 2021-07-29 16:14:00 · 202 阅读 · 0 评论 -
Centos7 Hadoop伪分布模式安装
一:linux的基本使用命令查看ip信息:ifconifg创建目录: mkdir切换到某个目录下: cd获取当前所在的目录全路径:pwd显示当前目录下的所有文件信息:ll查看一个文件的内容:catvi命令:修改文件内容首先输入i 进入编辑模式然后修改文件中的内容修改完成之后,按esc键退出编辑模式再按shift 和 : 再输入wq最后按回车即可二:集群安装步骤2.1vagrant file中加入这行config.vm.network "private_networ.原创 2021-07-27 23:00:09 · 393 阅读 · 2 评论 -
HIVE初识
什么是HiveHive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,可以简称为ETL。Hive 定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据,同时,这个语言也允许熟悉MapReduce的开发者开发自定义的mapreduce任务来处理内建的SQL函数无法完成的复杂的分析任务。Hive中包含的有SQL解析引擎,它会将SQL语句转译成M/R Job,然后在Hadoop中执行。通过这里的分析我们可以了解到Hive可以通过原创 2021-05-18 20:43:15 · 249 阅读 · 0 评论 -
硬盘的秘密
硬盘这东西想必我们都相当的熟悉,它存放了我们很多学习资料,还经常因为访问速度慢而被诸多文章拿出来“鞭挞”。我找了个网站(文末贴链接),这个网站展示了从 1990 开始到 2020 不同介质数据访问的延迟时间。我翻了一遍介质自身速度的数量级没有变化,内存访问延迟从 207ns 到 100ns,硬盘从 19ms 到了 2ms,但是介质之间的访问速度还是差了几个数量级。不过上述我圈出来的是随机访问,顺序访问的话不会差这么多,想要知道为什么,那就需要了解下硬盘的构造。当然,我今天提到的硬盘指的是转载 2021-02-07 08:41:52 · 148 阅读 · 0 评论 -
什么是高并发?高并发解决方案
比如接口响应超时、CPU load 升高、GC 频繁、死锁、大数据量存储等等,这些问题能推动我们在技术深度上不断精进。在过往的面试中,如果候选人做过高并发的项目,我通常会让对方谈谈对于高并发的理解。但是能系统性地回答好此问题的人并不多,大概分成这样几类: 对数据化的指标没有概念:不清楚选择什么样的指标来衡量高并发系统?分不清并发量和 QPS,甚至不知道自己系统的总用户量、活跃用户量,平峰和高峰时的 QPS 和 TPS 等关键数据。 设计了一些方案,但是细节掌握不透彻:讲不..转载 2020-06-30 09:36:10 · 1511 阅读 · 0 评论 -
Greenplum MADlib
MADlib概要MADlib是一个可扩展数据库分析的开源库。通过Greenplum的MADlib扩展,用户可以在Greenplum数据库中使用MADlib功能。MADlib为结构化数据以及非结构化数据提供了数学、统计学以及机器学习方法的数据并行的实现。它提供了一整套基于SQL的机器学习、数据挖掘以及统计学算法,只需要运行在数据库引擎中,而不需要在Greenplum和其它工具之间进行数据的传...转载 2019-11-26 15:59:52 · 722 阅读 · 0 评论 -
ElasticSearch
https://www.cnblogs.com/myitroad/p/9424879.html书目《深入理解ElasticSearch》拉斐尔·酷奇,马雷克·罗戈任斯基【著】张世武,余洪森,商旦【译】机械工业出版社,2016.1本系列包括以下8篇笔记第01章 ElasticSearch简介第02章 查询DSL进阶第03章 底层索引控制第04章 分布式索引架构第05章 管理Elas...转载 2019-11-16 17:07:56 · 154 阅读 · 0 评论 -
GreenPlum的Bitmap Heap Scan和 Bitmap Index Scan
一、Bitmap Heap Scan/ Bitmap Index Scan在查看GP的执行计划会看到Bitmap Heap Scan/ Bitmap Index Scan/Bitmap Or/Bitmap And.这些关键字是什么意思呢? Bitmap Index Scan/Bitmap Or/Bitmap And ->Bitmap Heap Sc...原创 2019-11-13 18:40:06 · 1164 阅读 · 0 评论 -
从PostgreSQL的FSM管理策略来考思考BitMap为什么可以节省空间?
在GP中有一个BitMap索引,当所扫描到的index比较大时,就可能走bitmap索引。那位为什么要选择图索引?为什么bitmap可以节省空间?bitmap就是用一个bit位来标记某个元素对应的value,而key即是该元素,由于 BitMap使用了bit位来存储数据,因此可以大大节省存储空间。基本原理:比如0-7内有5个元素(7,2,3,5,1)。假如需要对其...原创 2019-11-16 10:44:03 · 313 阅读 · 0 评论 -
GreenPlum通过copy 和 gploader载入数据
GreenPlum数据加载目录GreenPlum数据加载1. copy命令1.1 创建测试表1.2 准备测试数据1.3copy命令语法1.4数据加载1.5数据卸载1.6其他参数解释2.使用gpfdist的外部表2.1 创建实验环境2.2gpfdist加载数据2.3卸载数据3.GreenPlum数据加载工具gpload3.1...原创 2019-11-15 19:48:57 · 1382 阅读 · 0 评论 -
Toad Oracle Parttion表分析
当一个数据表的数据达到几十亿笔的时候,对整个表做表分析代价较大。像实际业务中有多达20亿笔的数据以下为做parttion analyze的步骤 一般reload刷新不出来的时候,关闭该windows,重新打开table analyze此时选择需要做analyze的分区做analyze。对table做完分析可以提高正确执行计划的执行。当表没有做分析的...原创 2018-10-20 10:19:21 · 610 阅读 · 0 评论 -
数据校验与阵列磁盘
海明校验码和 异或校验是两种最为常用的 数据校验算法。海明校验码是由理查德.海明提出的,不仅能检测错误,还能给出错误位置并自动纠正。海明校验的基本思想是:将有效信息按照某种规律分成若干组,对每一个组作奇偶测试并安排一个校验位,从而能提供多位检错信息,以定位错误点并纠正。可见海明校验实质上是一种多重奇偶校验。异或校验通过异或逻辑运算产生,将一个有效信息与一个给定的初始值进行异或运算,会得到校验...转载 2018-09-30 19:28:49 · 2407 阅读 · 0 评论 -
数据库表存在内存中
数据库有一种机制: 一些程序启动就需要查询的表,和一些被频繁访问的表。比如:m_ope_dm_product_dm_eqid_d...等可以考虑将这些数据量不大但经常使用的的表缓存到内存当中。做法有两种:1、把这些基础数据存在Redis里面。每次用的时候从redis查,效率很高。但是有一个缺点,update的数据不能及时同步到redis中。2、把这些ho...原创 2018-04-13 17:52:47 · 1711 阅读 · 0 评论 -
ASH Report 解析
ASH Report For EDADBT/edadbt DB Name DB Id Instance Inst num Release RAC Host EDADBT 1157804911 edadbt 1 12.2.0.1.0 NO p1edadb01t CPUs SGA Size...原创 2018-09-05 14:19:30 · 2290 阅读 · 0 评论 -
多态存储 && 对HDFS概念的理解
HDFS随着时间的推移,DB的数据量越来越大,当几年之后,历史数据对DB来说是一个庞然大物,如果采用传统的存储是及其耗费空间的,结合实际业务,历史数据的使用除了客诉品需要查跨年的数据其他情况基本不会再用到那些历史数据。此时,我们可以充分利用我们分布式作业系统,将这些历史数据存储在HDFS上。HDFS,流式数据访问模式(一次写入、多次读取是高效的访问模式。数据集通常由数据源生成或从数据源复制...原创 2018-09-02 16:39:25 · 682 阅读 · 0 评论 -
从PostpreSql MVCC的角度看real_flg
Oracle 和 MySql的Innoodb引擎都实现了多版本的功能,但是与PG的实现方式不一样。前者的旧版本数据并不记录在原先的数据块中,而是记录在回滚段中。如果要读取旧版本的数据,需要根据回滚段的数据重构旧版本数据。 比如:在实际业务中,EDA 对有重复数据有一张table就是在表名后加一个"_OLD"。来区分新旧数据。()...原创 2018-07-16 20:29:45 · 365 阅读 · 0 评论 -
Windows下文件创建时间竟然比修改时间晚!!!linux&&windows 文件系统的认识
windows下文件创建时间晚于修改时间的猫腻: 文件移动目录会改变创建时间。 分别创建两个目录A、B,分别在两个目录里面创建两个文件a.TXT,b.TXT。 理论上讲A的time>B的Time文件系统: 文件系统是操作系统用于明确存储设备(常见的是磁盘,也有基于NAND Flash的固态硬盘)或分区上的文件的方法和数据结构;当然也有像内存这种虚拟的文件系统(vmfs),说...原创 2018-02-23 10:12:50 · 6047 阅读 · 0 评论 -
Oracle Varchar2 存储长度问题
原文地址:https://www.cnblogs.com/yangxia-test/archive/2013/08/07/3242775.htmlvarchar2最大是4000字节,那么就看你的oracle字符集:(select userenv('language') from dual;)如果字符集是16位编码的,ZHS16GBK,那么每个字符16位,2字节,所以可以容纳2000字符。如果是32...转载 2018-02-14 11:02:43 · 3166 阅读 · 0 评论 -
PostgreSql建表属性fillfactor的设定对表性能的提升
postgresql 表的存储属性 p154postgresql update数据行,旧的数据行并不会覆盖,而是新插入一条记录,pg有一种HOT(p301) 技术(我理解的不是很深刻,有兴趣自己去看),会在同一个数据块中使用链表把新旧行链起来,这样一来,就不用更新索引了。索引项仍会指向旧行,旧行和新行之间的链表可以找到最新的行,因为HOT的链表不能跨数据块,如果新行必须插入新的数据块中,则无...原创 2018-10-23 19:27:18 · 2853 阅读 · 0 评论 -
Greenplum 行存、列存,堆表、AO表的原理和选择
原文地址:https://github.com/digoal/blog/blob/master/201708/20170818_02.md?spm=a2c4e.11153940.blogcont179210.17.6f682764HWr8pC&file=20170818_02.md以下文字为德哥github原文,如有侵权,请及时联系,我会立即删除。Greenplum支持行存和列存,...转载 2019-01-09 14:04:47 · 6423 阅读 · 0 评论 -
官方最强解读Geenplum6.0!
https://mp.weixin.qq.com/s/_PiI8LQZ3Pll140EkGv5vA转载 2019-09-11 08:51:21 · 165 阅读 · 0 评论 -
Greenplum外部表原理
外部表是greenplum的一种数据表,它与普通表不同的地方是:外部表是用来访问存储在greenplum数据库之外的数据。如普通表一样,可使用SQL对外部表进行查询和插入操作。外部表主要用于Greenplum数据的导入及导出。本文按照以下顺序介绍外部表:外部表创建和使用,外部表读写实现机制,外部数据转换,外部表的查询计划,外部表的事务,使用可读外部表加载数据。一 外部表创建和使用Gre...转载 2019-09-29 15:10:00 · 1970 阅读 · 0 评论