大数据
文章平均质量分 79
yida&yueda
这个作者很懒,什么都没留下…
展开
-
golang依赖注入wire使用 执行wire命令时报错:bash: wire: command not found
bash: wire: command not found原创 2022-04-18 21:20:59 · 7254 阅读 · 0 评论 -
TiDB整体架构详解、TiDB核心特性——水平扩展、高可用
TiDB 集群主要包括三个核心组件:TiDB Server,PD Server 和 TiKV Server。此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件和简化云上部署管理的 TiDB Operator 组件。原创 2022-01-14 22:55:46 · 5150 阅读 · 0 评论 -
从MySQL到NewSQL、传统关系型数据库的缺点、传统关系型数据库如何应对业务爆发式的数据增长
如今的数据库种类繁多,RDBMS(关系型数据库)、NoSQL(Not Only SQL)、NewSQL,在数据库领域均有一席之地,可谓百家争鸣之势。那么我们为什么要学习使用TiDB呢?接下来就从我们最熟悉的MySQL的使用说起!原创 2022-01-13 22:18:25 · 4583 阅读 · 0 评论 -
Spark框架概述、 Spark 框架模块详解、Spark 是什么、Spark 四大特点——速度快、易于使用、通用性强、运行方式多样
Spark 是加州大学伯克利分校AMP实验室(Algorithms Machines and People Lab)开发的通用大数据出来框架。Spark生态童也称为BDAS,是伯克利AMP实验室所开发的,力图在算法(Algorithms)、机器(Machines)和人(Person)三种之间通过大规模集成来展现大数据应用的一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案,对海量数据进行分析并转化为有用的信息,让人们更好地了解世界。原创 2022-01-11 22:03:52 · 10814 阅读 · 0 评论 -
HBase底层存储数据的文件格式是什么?StoreFiles(HFile)详解
StoreFile是HBase存储数据的文件格式。原创 2022-01-11 08:00:00 · 2957 阅读 · 0 评论 -
理解布隆过滤器
布隆过滤器是一种数据结构,是一种比较巧妙的概率型数据结构。它的特点是高效地插入和查询。但我们要检查一个key是否在某个结构中存在时,通过使用布隆过滤器,我们可以快速了解到「这个key一定不存在或者可能存在」。原创 2022-01-10 14:15:00 · 880 阅读 · 0 评论 -
LSM树——Log-Structured Merge-Tree数据结构、LSM树设计思想、LSM的数据写入操作、LSM的数据查询操作
传统关系型数据库,一般都选择使用B+树作为索引结构,而在大数据场景下,HBase、Kudu这些存储引擎选择的是LSM树。LSM树,即日志结构合并树(Log-Structured Merge-Tree)。原创 2022-01-10 07:00:00 · 4716 阅读 · 0 评论 -
HBase的协处理器(Coprocessor)、HBase如何使用二级索引、observer协处理器、 endpoint协处理器、Hbase 协处理器加载方式
HBase 在 0.92 之后引入了协处理器(coprocessors),实现一些激动人心的新特性:能够轻易建立二次索引、复杂过滤器(谓词下推)以及访问控制等原创 2022-01-08 08:00:00 · 4364 阅读 · 0 评论 -
HBase Master工作机制、Master上线、Master下线
master只维护表和region的元数据,而不参与表数据IO的过程原创 2022-01-07 18:15:00 · 1038 阅读 · 0 评论 -
Hbase Region管理、region分配、region server上线、region server下线、Region分裂、自动分区和手动分区
Master记录了当前有哪些可用的region server,以及当前哪些region分配给了哪些region server,哪些region还没有分配。当需要分配的新的region,并且有一个region server上有可用空间时,master就给这个region server发送一个装载请求,把region分配给这个region server。region server得到请求后,就开始对此region提供服务。原创 2022-01-07 18:00:00 · 2215 阅读 · 0 评论 -
HBase 读数据流程和存储数据流程、MemStore溢写合并、In-memory compaction介绍、compaction策略详解
为了提高HBase的写入速度,数据都是先写入到MemStore(内存)结构中,V2.0 MemStore也会进行Compaction原创 2022-01-07 18:00:00 · 1454 阅读 · 0 评论 -
Kafka中数据清理、日志压缩、日志删除、保留策略
Kafka的消息存储在磁盘中,为了控制磁盘占用空间,Kafka需要不断地对过去的一些消息进行清理工作。Kafka的每个分区都有很多的日志文件,这样也是为了方便进行日志的清理。在Kafka中,提供两种日志清理方式:- 日志删除(Log Deletion):按照指定的策略**直接删除**不符合条件的日志。- 日志压缩(Log Compaction):按照消息的key进行整合,有相同key的但有不同value值,只保留最后一个版本。转载 2021-12-31 06:45:00 · 3619 阅读 · 1 评论 -
Kafka如何保证消息不丢失、Kafka消费数据模式、Kafka的数据存储形式
生产者通过分区的leader写入数据后,所有在ISR中follower都会从leader中复制数据,这样,可以确保即使leader崩溃了,其他的follower的数据仍然是可用的。。原创 2021-12-29 23:47:19 · 1997 阅读 · 0 评论 -
kafka中leader和follower、AR、ISR、OSR、Controller的选举、为什么不能通过ZK的方式来选举partition的leader?
在Kafka中,每个topic都可以配置多个分区以及多个副本。每个分区都有一个leader以及0个或者多个follower,在创建topic时,Kafka会将每个分区的leader均匀地分配在每个broker上。我们正常使用kafka是感觉不到leader、follower的存在的。但其实,所有的读写操作都是由leader处理,而所有的follower都复制leader的日志数据文件,如果leader出现故障时,follower就会被选举为leader**。**原创 2021-12-29 23:14:36 · 2477 阅读 · 0 评论 -
数据仓库分层架构总结
三层架构,是最基础和最常见的业务架构,其主体思想是:**原始 -> 处理 -> 利用** 的三大阶段。基于这个基础,企业可以根据自身业务对这三个层级进行相应的划分,无论对哪个层级都能进行细化,具体如何细化,就看业务需求了。但大多数都不会偏离: 原始 -> 处理 -> 利用 这个主题思想的。原创 2021-12-25 21:51:51 · 2731 阅读 · 0 评论 -
数仓维度设计模型、事实表、维度表、指标、宽表,常见的三种维度建模设计——星型模型、雪花模型、星座模型
在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模式。原创 2021-12-25 21:48:31 · 7819 阅读 · 1 评论 -
数据仓库简介、数据仓库的发展、数仓理论简介
`将数据孤岛中所需要的业务核心数据,抽取到一个集中存储的数据库中,用以进行数据利用和分析。`原创 2021-12-25 21:30:27 · 1616 阅读 · 0 评论 -
Redshift 系统架构概述、Redshift与AWS其它服务整合
Amazon Redshift 与各种数据加载和 ETL(提取、转换和加载)工具以及商业智能 (BI) 报告、数据挖掘和分析工具集成。Amazon Redshift 基于行业标准 PostgreSQL,因此,大多数现有 SQL 客户端应用程序仅处理最少量的更改。原创 2021-12-25 15:36:32 · 4434 阅读 · 0 评论 -
AWS亚马逊Redshift的特点功能介绍
Amazon Redshift 使用了多种创新技术,对于大小在 100GB 到 1PB 或更高的数据集,可以实现很高的查询性能,并使用了列式存储。Amazon Redshift 采用了大规模并行处理 (MPP) 数据仓库架构,可以对 SQL 操作进行并行分布处理,以便利用所有可用资源。底层硬件支持高性能数据处理,使用本地连接的存储以便尽可能增大 CPU 与驱动器之间的吞吐量,同时使用 10GigE 网状网络以便尽可能增大节点之间的吞吐量。原创 2021-12-24 23:59:43 · 4993 阅读 · 0 评论 -
ETL工具——AWS Glue、Glue的执行原理、ETL的三大组件
## ETL的三大组件一般来说,ETL分为3大核心组件:- 输入 - E - extract- 转换 - T - transform- 输出 - L - load原创 2021-12-23 23:30:05 · 4540 阅读 · 1 评论 -
ClouderaManager介绍、CDH特点、ClouderaManager架构、ClouderaManager功能、Cloudera Management Service
CDH是Apache Hadoop和相关项目中最完整、最稳定的、经过测试和最流行的发行版。 CDH提供了Hadoop的核心元素,可扩展存储和分布式计算 ,以及基于Web的用户界面和重要的企业功能。 CDH是Apache许可的开源软件,是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。原创 2021-12-16 06:30:00 · 1830 阅读 · 0 评论 -
使用CM的优点、ClouderaManager的产生背景和应用场景、Apache版本的大数据组件、ClouderaManager管理的CDH版本大数据组件
统一化的可视化界面自动部署和配置,大数据各类组件(hadoop、hive、hue、kudu、impala、zookeeper等)安装、调优极其便捷零停机维护(免费版本不具有弹性升级)多用户管理(权限控制,支持ldap)稳定性极好(部分优化措施都已经调整好)原创 2021-12-15 22:44:36 · 2282 阅读 · 0 评论 -
大数据架构和技术选型示例、数据采集层、数据存储层、数据分析层、数据调度层、数据同步层、数据olap存储层、大数据架构和技术选型
大数据架构和技术选型,你选对了吗原创 2021-12-15 21:28:02 · 2567 阅读 · 0 评论 -
centos环境Hadoop3编译安装
基础环境:Centos 7.7编译环境软件安装目录mkdir -p /export/serverHadoop编译安装安装编译相关的依赖1、yum install gcc gcc-c++ -y#下面这个命令不需要执行 手动安装cmake2、yum install make cmake #(这里cmake版本推荐为3.6版本以上,版本低源码无法编译!可手动安装)3、yum install autoconf automake libtool curl -y4、yum instal原创 2021-12-13 21:06:44 · 2045 阅读 · 0 评论 -
HDFS 透明加密使用、Keystore和Hadoop KMS、加密区域、透明加密关键概念和架构、KMS配置
**HDFS**透明加密(Transparent Encryption)支持端到端的透明加密,启用以后,对于一些需要加密的HDFS目录里的文件可以实现透明的加密和解密,而不需要修改用户的业务代码。端到端是指加密和解密只能通过客户端。对于加密区域里的文件,HDFS保存的即是加密后的文件,文件加密的秘钥也是加密的。让非法用户即使从操作系统层面拷走文件,也是密文,没法查看。原创 2021-12-13 08:15:00 · 4148 阅读 · 1 评论 -
HDFS权限管理、用户身份认证和数据访问授权、UGO权限管理、umask权限掩码、UGO权限相关命令、Web页面修改UGO权限
作为分布式文件系统,HDFS也集成了一套兼容POSIX的权限管理系统。客户端在进行每次文件操时,系统会从**用户身份认证**和**数据访问授权**两个环节进行验证: 客户端的操作请求会首先通过本地的用户身份验证机制来获得“凭证”(类似于身份证书),然后系统根据此“凭证”分辨出合法的用户名,再据此查看该用户所访问的数据是否已经授权。一旦这个流程中的某个环节出现异常,客户端的操作请求便会失败。原创 2021-12-13 06:45:00 · 2505 阅读 · 0 评论 -
HDFS回收站、Trash机制、Trash Checkpoint、快照功能使用、通过Snapshot快照恢复数据、备份数据、HDFS快照的实现
回收站的功能给了我们一剂“后悔药”。回收站保存了删除的文件、文件夹、图片、快捷方式等。这些项目将一直保留在回收站中,直到您清空回收站。我们许多误删除的文件就是从它里面找到的。HDFS本身也是一个文件系统,那么就会涉及到文件数据的删除操作。**默认情况下,HDFS中是没有回收站垃圾桶**概念的,删除操作的数据将会被直接删除,没有后悔药。**HDFS snapshot**是HDFS整个文件系统,或者某个目录在某个时刻的镜像。该镜像并不会随着源目录的改变而进行动态的更新。可以将快照理解为拍照片时的那一瞬间的投影。原创 2021-12-11 10:00:00 · 1712 阅读 · 0 评论 -
HDFS角色职责超详细概述Namenode、Datanode、元数据管理+fsimage 内存镜像文件+ Edits log编辑日志、元数据加载顺序
NameNode是HDFS的核心,集群的主角色,被称为Master。 NameNode仅存储管理HDFS的元数据:文件系统namespace操作维护目录树,文件和块的位置信息。NameNode不存储实际数据或数据集。数据本身实际存储在DataNodes中。 NameNode知道HDFS中任何给定文件的块列表及其位置。使用此信息NameNode知道如何从块中构建文件。NameNode并不持久化存储每个文件中各个块所在的DataNode的位置信息,这些信息会在系统启动时从DataNode汇报中重建。原创 2021-12-11 09:00:00 · 5438 阅读 · 0 评论 -
HDFS架构原理、架构剖析、主从架构解析、NameNode、SecondaryNameNode、Datanode之间的联系区别、hdfs分块机制、副本机制、元数据管理
**HDFS**是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。HDFS解决的问题就是大数据如何存储,它是横跨在多台计算机上的文件存储系统并且具有高度的容错能力。原创 2021-12-10 21:45:12 · 6175 阅读 · 0 评论 -
HDFS High Availability(HA)高可用、单点故障、主备集群、脑裂问题、数据同步问题、HDFS HA解决方案—QJM
高可用性或者高可靠度的系统不会希望有单点故障造成整体故障的情形。一般可以透过冗余的方式增加多个相同机能的部件,只要这些部件没有同时失效,系统(或至少部分系统)仍可运作,这会让可靠度提高。原创 2021-12-09 21:11:26 · 2738 阅读 · 0 评论 -
HDFS集群管理与运维+distcp工具的使用
数据迁移指的是一种大规模量级的数据转移,转移的过程中往往会跨机房、跨集群 ,数据迁移规模的不同会导致整个数据迁移的周期也不尽相同 。 在HDFS中,同样有许多需要数据迁移的场景,比如冷热数据集群之间的数据转化, 或者HDFS数据的双机房备份等等 。因为涉及跨机房 、跨集群,所以数据迁移不会是一个简单的操作。原创 2021-12-08 20:24:12 · 1693 阅读 · 0 评论 -
scala——Actor模型、并发编程、多线程统计单词案例、java并发抹胸缺点、actor如何优化
Scala中的Actor并发编程模型可以用来开发比Java线程效率更高的并发程序原创 2021-12-07 06:00:00 · 1282 阅读 · 0 评论 -
scala——Iterable集合、Seq集合、Set集合、Map集合使用示例
1. 掌握Iterable集合相关内容.2. 掌握Seq集合相关内容.3. 掌握Set集合相关内容.4. 掌握Map集合相关内容.5. 掌握统计字符个数案例.原创 2021-12-05 23:45:00 · 1705 阅读 · 0 评论 -
scala——集合详解、集合相关方法介绍、Traversable使用
1. 了解集合的相关概念2. 掌握Traversable集合的用法3. 掌握随机学生序列案例原创 2021-12-06 06:00:00 · 1574 阅读 · 0 评论 -
scala——泛型方法、类、特质的使用,泛型边界、协变逆变非变、scala上下界——控制类的权限
泛型的意思是`泛指某种具体的数据类型`, 在Scala中, 泛型用`[数据类型]`表示. 在实际开发中, 泛型一般是结合数组或者集合来使用的原创 2021-12-05 17:11:01 · 757 阅读 · 0 评论 -
Scala----递归recursion、斐波那契数列实现
递归recursion、斐波那契数列实现原创 2021-12-03 18:49:00 · 1494 阅读 · 0 评论 -
# scala----隐式转换、隐式参数的使用,implicit关键字的使用、隐式转换的时机、获取列表元素平均值
隐式转换和隐式参数是Scala中非常有特色的功能,也是Java等其他编程语言没有的功能。我们可以很方便地利用隐式转换来丰富现有类的功能原创 2021-12-02 17:56:59 · 774 阅读 · 0 评论 -
Scala----IO流操作、读写操作
scala----io流、读写操作原创 2021-12-01 15:23:07 · 1660 阅读 · 0 评论 -
scala----option类型及偏函数、异常处理、正则表达式
scala option使用,偏函数使用、异常处理、正则表达式原创 2021-12-01 15:21:14 · 812 阅读 · 0 评论 -
scala——Set、Map、迭代器、扁平化、过滤、排序、分组、聚合
4、Set集合Set(也叫: 集)代表没有重复元素的集合。特点是: 唯一, 无序唯一 的意思是 Set中的元素具有唯一性, 没有重复元素无序 的意思是 Set集中的元素, 添加顺序和取出顺序不一致格式一: 创建一个空的不可变集val/var 变量名 = Set[类型]()格式二: 给定元素来创建一个不可变集val/var 变量名 = Set(元素1, 元素2, 元素3...)示例//案例: 演示不可变集.object ClassDemo16 { def main(args:原创 2021-11-30 06:45:00 · 1405 阅读 · 0 评论