Big Data Storage
文章平均质量分 84
大数据存储
cuiyaonan2000
躬身入局,高在造势。 器不锐,可磨。 术不静,可学。 道不强,可悟。 法不高,可练。 时不逢,可待。谋事在人,成事在天。
展开
-
数据仓库分层
从数据粒度来说是高度汇总的数据。从极端情况来说,可以为每一张报表在APP层构建一个模型来支持,达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。从数据的时间跨度来说,通常是PDW层的一部分,主要的目的是为了满足用户分析的需求,而从分析的角度来说,用户通常只需要分析近几年(如近三年的数据)的即可。为数据仓库层,PDW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。原创 2023-10-20 10:37:56 · 134 阅读 · 0 评论 -
ChunJun: 自定义插件
从数据流的角度来看ChunJun,可以理解为不同数据源的数据流通过对应的ChunJun插件处理,变成符合ChunJun数据规范的数据流;脏数据的处理可以理解为脏水流通过污水处理厂,变成符合标准,可以使用的水流,而对不能处理的水流收集起来。----总的来说跟Flink的数据处理一样,只是增加了一个插件的概念用于处理不同的数据源,并生成对应的Flink任务cuiyaonan2000@163.com数据源本身读写数据的正确性;如何合理且正确地使用框架;配置文件的规范,每个插件都应有对应的配置文件;原创 2023-09-25 14:46:11 · 385 阅读 · 0 评论 -
ViewFs And Federation On HDFS
ViewFs 是在Federation的基础上提出的,用于通过一个HDFS路径来访问多个NameSpace,同时与ViewFs搭配的技术是client-side mount table(这个就是具体的规则配置信息可以放置在core.xml中,也可以放置在mountTable.xml中).原创 2023-08-14 18:03:56 · 1364 阅读 · 0 评论 -
Commands Of Hadoop
持续整理下常用的命令cuiyaonan2000@163.com。原创 2023-07-25 17:36:33 · 758 阅读 · 0 评论 -
Tencent : TBDS
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)是基于腾讯多年海量数据处理经验,对外提供的可靠、安全、易用的大数据处理平台。您可以借助 TBDS 在公有云、私有云、非云化环境,根据不同数据处理需求选择合适的大数据分析引擎和相应的实时数据开发、离线数据开发以及算法开发服务,来构建您的数据仓库、用户画像、精准推荐、风险管控等大数据应用服务。原创 2023-07-24 16:13:37 · 998 阅读 · 0 评论 -
Hadoop: High Available
即HDFS 支持一主一备的架构最多支持 5 个,官方推荐使用 3 个基于Hadoop3.x. 总的来说就是要借助Zookeeper来实现高可用,然后就是编辑Hadoop的配置文件已实现高可用cuiyaonan2000@163.com。原创 2023-07-19 17:10:56 · 999 阅读 · 0 评论 -
Flink Environment Variable
我们在使用命令发布Flink任务的时候可以根据根据任务需要来设置环境变量(具体命令就是./flink run-application -t yarn-application),而不需要根据使用默认flink-conf.yaml的默认值,同时因为flink并不能自己根据任务的多少来设置算子的并行度等原因,所以根据任务的实际情况手动设置是很有必要的,如果要这么做就需要了解flink-conf.yaml的内容.cuiyaonan2000@163.com。原创 2023-07-18 16:38:13 · 1426 阅读 · 0 评论 -
Tuning Of Hbase
持续整理cuiyaonan2000@163.com。原创 2023-07-03 17:24:31 · 535 阅读 · 0 评论 -
Kerberos
kerberos 除了说帮我们验证Java程序是否具有权限来请求Hadoop的服务,也可以来帮助我们检查新增的节点是是否是真实的节点,还是黑客为了套取数据的节点.比如为HDFS新增一个DataNode节点,如果没有Kerberos验证, 随便一个节点只要连接上NameNode就会存储数据,黑客就可以获取到我们的数据cuiyaonan2000@163.com。原创 2023-05-18 16:23:26 · 725 阅读 · 0 评论 -
JavaClient With HDFS
在使用Java创建连接HDFS的客户端时,可以设置很多参数,具体有哪些参数呢,只要是在部署HDFS服务中可以设置的参数,都是可以在连接的时候设置. 我没有去验证所有的配置是否都可以验证,只是推测cuiyaonan2000@163.com。原创 2023-04-17 14:36:22 · 287 阅读 · 0 评论 -
Federation HDFS VS HDFS
在Web UI中列出了所有的Namenode及其细节,如Namenode-BlockPoolID和存储的使用状态,失去联系的、活的和死的块信息。由于Namenode在内存中存储所有的元数据(metadata),因此单个Namenode所能存储 的对象(文件+块)数目受到Namenode所在JVM的heap size的限制。如果HDFS仅有一个Namenode,无法隔离各个用户的应用,因此,假如在HDFS上运行的一个未充分测试的程序很有可能影响到(减慢)生产环境HDFS上运行的程序。原创 2023-03-24 18:06:56 · 483 阅读 · 0 评论 -
Launch SparkSql Task With SpringBoot
序言参考资料:Spark 介绍_w3cschool原创 2022-02-16 13:57:46 · 1376 阅读 · 4 评论 -
Es On Hadoop
序言现在Hadoop越来越像一个平台了.里面可以住进去各种商家,商家种类有2种.1就是做存储的,2就是做计算的.cuiyaonan2000@163.com这里收集整理下Elasticsearch在Haoop上的应用.官网:面向 Hadoop 的 Elasticsearch | Elastic特点es和hadoop的整合的目的如官网所说:Elasticsearch-Hadoop (ES-Hadoop) 连接器将 Hadoop 海量的数据存储和深度加工能力与 Elasticsearc原创 2021-12-07 17:58:07 · 2168 阅读 · 0 评论 -
Using Of Commands Of Spark
序言简单介绍下Spark的命令,在理解Spark命令的同时,也会顺带理解Spark的服务和功能cuiyaonan2000@163.comspark-submit这个就是往Spark集群中提交任务的命令和入口,且同时支持Spark On Yarn 和 Spark Standalone两种模式.在我们搭建好服务器后,官网提供了一些用例供我们测试理解使用.如下所示:./spark-submit --class org.apache.spark.examples.SparkPi --ma原创 2021-12-06 15:37:09 · 162 阅读 · 0 评论 -
Buckets On Hive
序言分区与分桶都是为了提升Hive的查询效率.两者也可以同时存在.也可以独立存在.具体可以根据自己的业务情况进行选择,创建不同类型的表.分区是根据数据某一个字段新建一个目录.以增加相同数据的查询效率. 分桶是根据数据的某一个字段,在分区或者根目录下创建一个文件,多少个文件就是分桶数.同样可以提升单表查询的效率,另外如果是关联查询,则也会提升关联查询的效率.因为根据关联字段查找对应的文件就行了.cuiyaonan2000@163.com创建分桶创建的语法如下:CREATE [原创 2021-12-02 17:50:51 · 1556 阅读 · 1 评论 -
Trun On ACID(Detlete & Update) On Hive
序言默认我们搭建起来的Hive或者SparkSql都是不支持事务的.需要相应的配置才能开启Hive的事务.同时Hive的Delete和Update也是需要先开启ACID才能支持的cuiyaonan2000@163.com.参考地址:LanguageManual DML - Apache Hive - Apache Software Foundation Hive Transactions - Apache Hive - Apache Software Foundation原创 2021-12-02 15:28:37 · 218 阅读 · 0 评论 -
Hive On Spark
序言之前写的一篇Ⅰ.今天看了一下感觉有很多不完善和错误的地方.这里在写一篇cuiyaonan2000@163.com 两者可以结合一起看用于理解学习Hive On Spark这个意思是将Hive的执行引擎替换成spark.默认的是MR,且我们在启动Hive的时候会看到如下的内容(所以我们应该用spark来做为执行引擎cuiyaonan2000@163.com)既然要换成spark,那我们知道Hadoop自带的Mr是不能用了,且不包含spark的相关服务,所以配置修改,增加spa.原创 2021-11-30 18:16:14 · 5052 阅读 · 0 评论 -
Insert Data Into Hive
序言通过前面Hive的搭建,包括我们整合Mybatis和Hive.发现一个问题即:即传统的insert 不能执行所以这里整理下往Hive插入数据的几种形式,同时这些语句也可以在Mybatis中使用.Hive不支持INSERT INTO, UPDATE, DELETE针对单条数据的操作.cuiyaonan2000@163.comLoad加载本地文件到Hive中#创建Hive表hive> create table db_hive.student(cui string ,yao原创 2021-11-26 16:11:23 · 2305 阅读 · 0 评论 -
Partition On Hive
序言Hive的分区跟我们传统关系数据库的分区也是差不多,我们传统数库表分区是根据一个字段的内容进行换分成不同的数据块,以增加查询效率.同理Hive也是这样的但是也会有一些实现上的区别cuiyaoan2000@163.com.但是目的都是增加查询效率海量的数据保存在hdfs的某一个hive表明对应的目录下,使用hive进行操作的时候,往往会搜索这个目录下的所有文件,这有时会非常的耗时如果我们知道 这些数据的某些特征,可以事先对他们进行分裂,再把数据load到hdfs上的时候,他们就会被放到不同的目原创 2021-11-25 14:53:23 · 974 阅读 · 0 评论 -
Launch Hive Server2
序言在搞定了Hive服务的环境搭建后.我们需要启动Hive Server2 来供我们的程序提交任务,以及获取到相关的返回结果.HiveServer2 提供了一个简单的 WEB UI 页面,在页面中我们可以直观的看到当前链接的会话、历史日志、配置参数以及度量信息.这些服务都是Hive的内置服务,只需要一些简单的配置后就可以使用cuiyaonan2000@163.com配置文件Hive Server2一般用默认的就好了 配置项 默认值原创 2021-11-22 15:28:28 · 1137 阅读 · 0 评论 -
Lunch Hive Task By SpringBoot
序言本Demo是基于SpringBoot 创建Hive 任务并提交到 MapReduce On Yarn 上进行计算.那SpringBoot连接Hive的整体思路其实很简单就是通过JDBC.针对Hive的任务并提交到Yarn上就是通过SQL(当然实际的任务是MapReduce,那我们只是通过SQL的形式交由程序去自动创建cuiyaonan2000@163.com)如下所示:参考信息:Apache Hive TM...原创 2021-11-19 16:16:51 · 856 阅读 · 0 评论 -
SparkSql On Hive
序言sql 在 hive的使用具体还分为了2种解决方案: spark sql:是hive上的sql语句,spark sql用的是spark 引擎。Spark SQL的前身是Shark,是给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,其对Hive有太多依赖。 hive on spark:是hive上的sql语句,hive on spark是hive借用spark的引擎。 Hive on Spark是由Cloudera发起,将Hive的查询作为Spark的任务提交到.原创 2021-05-08 11:47:59 · 933 阅读 · 0 评论 -
Hive Description And Launch The Service
序言使用Hive主要是用于离线批量计算,或者称为数据仓储的工具。因为它最主要的特点是,能够将SQL自动转换成MapReduce任务。而MapReduce又是运行在HDFS上的,有YARN管理的多个MapReduce任务的集合。官方网址:https://cwiki.apache.org/confluence/display/Hive/Home概述Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转..原创 2021-04-22 11:29:25 · 1069 阅读 · 2 评论 -
Phoenix语法
序言Phoenix与HBase中的表是独立的,两者之间没有必然的关系。如果要通过Phoenix操作Hbase中的表,则需要在Phoenix的系统表中加入Hbase的相关信息。实际上Phoenix也是通过这种形式来查询Hbase中的表的,这样子看来Phoenix有点像数据表中的Hmaster,cuiyaonan2000@163.comPhoenix创建表时会自动调用HBase客户端创建相应的表(使用hbase client api),创建六张系统表(这些表也是创建在HBase中的表,只是所属对象是原创 2021-04-19 10:59:24 · 2397 阅读 · 1 评论 -
Hbase数据管理工具
序言主要目的就是使用一个可视化的数据管理工具来查看hbase上的表内容。目前绝大多数的工具都是私人制作的,所以直接在工具上进行增删改查可能有点欠缺。工具有很多,持续更新吧,直到遇见一个功能比较全的。HbaseXplorer官方网址:https://github.com/bit-ware/HBaseXplorer/downloads事实证明该工具在2012年就停止更新了,在启动的时候直接报错,就放弃了cuiyaonan2000@163.com~~~~下载版本..原创 2021-04-16 14:32:53 · 4408 阅读 · 1 评论 -
Phoenix简介
序言前文说到Hbase没有类似ORM这类的东西,操作查询全靠java逻辑,很不方便。所以横空出世了Phoenix。官网网址:http://phoenix.apache.org/ 阿里的官方网址:https://help.aliyun.com/document_detail/69105.html?spm=a2c4g.11186623.6.714.4ab149f3b09Zou简介Phoenix是一个开源的HBASE SQL层(即Phoenix是应用层和Hbase的中间件cuiyaon..原创 2021-04-16 13:54:16 · 1253 阅读 · 1 评论 -
Java整合Hbase
序言使用java 整合Hbasespring-boot-starter-hbase使用springboot的封装工具来使用Hbase。org.apache.hbase:hbase-client使用原生的客户端连接Hbase。HBaseConfiguration包名 : org.apache.hadoop.hbase.HBaseConfiguration作用:对HBase进行配置。使用方法演示样例:HBaseConfiguration hconfig =...原创 2021-04-13 17:33:38 · 1898 阅读 · 3 评论 -
HDFS简介与部署
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。原创 2021-04-09 11:41:22 · 4059 阅读 · 2 评论 -
Hbase&&Hive
序言 大数据绕不开这2个东西。Hbase是大数据技术的实时查询数据库(相对于传统数据库,速度和效率肯定要低,但是它是基于大数据的)。 Hive是数据仓库,查询效率更低,因为它的查询都是基于全表扫描(目前已知的是可以把表进行分区,这样不用进行全表扫描,以进行优化),同时造成Hive慢的原因是,它提供的类SQL类工具可以把,任务拆解成MapReduce任务,在不同的HDFS进行计算,然后收集(MapReduce是一种计算框架,目前Flink也宣称可以帮助Hive进行任务拆解和运算)...原创 2021-03-25 13:48:39 · 238 阅读 · 0 评论 -
Hbase一些问题点
序言 搭建了Hbase的服务后,可以对照传统数据库去专门的搜索他的功能.这是会发现一些问题.比如只支持一级索引,只支持行级事务.故此要了解针对这些问题的解决方案.这个别文章其实是整合了其它人的劳动成果.当然也欢迎大家聊一下,虽然现在认真聊个事情是非常难.哈哈~但是万一有人有想法呢.请联系cuiyaonan2000@163.com关于Hbase查询效率的解决方案 ...原创 2019-09-04 11:26:38 · 880 阅读 · 0 评论 -
Hbase2.1.5集群环境搭建
序言Hbase跟基于Hadoop和Zookeeper. 同时Hbase的版本跟Hadoop的版本密切相关.一定要下载对应的Hadoop版本.此文章只介绍如何搭建Hbase的环境.启动hbase前先启动Hadoop和Zookeeper.整体介绍Hbase的集群拓扑图Client包含访问Hbase的接口,并维护cache来加快对Hbase的访问,比如region...原创 2019-08-28 15:24:05 · 1082 阅读 · 0 评论 -
一条数据的HBase之旅
这是HBase入门系列的第1篇文章,介绍HBase的数据模型、适用场景、集群关键角色、建表流程以及所涉及的HBase基础概念,本文内容基于HBase 2.0 beta2版本。本文既适用于HBase新手,也适用于已有一定经验的HBase开发人员。一些常见的HBase新手问题什么样的数据适合用HBase来存储?既然HBase也是一个数据库,能否用它将现有系统中昂贵的Oracle替换掉?存...原创 2019-08-27 17:16:44 · 484 阅读 · 0 评论 -
oozie5.0编译(一)
1.jdk版本[root@cuiyaonan2000]# java -versionjava version "1.8.0_66"Java(TM) SE Runtime Environment (build 1.8.0_66-b17)Java HotSpot(TM) 64-Bit Server VM (build 25.66-b17, mixed mode)[root@c...原创 2018-08-17 10:31:13 · 1601 阅读 · 3 评论 -
Hadoop、MapReduce、YARN和Spark的区别与联系
(1)Hadoop 1.0第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。(2) Hadoop 2.0第二代Hadoop,为克服Hadoop 1....原创 2018-05-08 16:36:42 · 5548 阅读 · 0 评论 -
spark概述
摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。这里总结下对Spark的认识、虚拟机Spark安装、Spark开发环境搭建及编写第一个scala程序、运行第一个Spark程序。1.Spark是什么Spark是一个快速且通用的集群计算平台2.Spark的特点1)Spark是快速的 Spark扩充了流行的Mapreduce计算模型 Spark是基...转载 2018-05-08 15:41:49 · 755 阅读 · 0 评论 -
Hadoop、Spark、HBase与Redis的适用性见解
问题导读:1.你认为Hadoop适用什么场景?2.Spark适用于什么场景?3.HBase与 Redis各有什么特点?最近在网上又看到有关于Hadoop适用性的讨论[1]。想想今年大数据技术开始由互联网巨头走向中小互联网和传统行业,估计不少人都在考虑各种“纷繁复杂”的大数据技术的适用性的问题。这儿我就结合我这几年在Hadoop等大数据方向的工作经验,与大家讨论一下H...原创 2018-05-07 15:36:24 · 8711 阅读 · 0 评论 -
大数据技术生态圈讲解
HDFS的体系架构 整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。 HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代...原创 2018-05-04 17:01:45 · 6522 阅读 · 2 评论
分享