![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 81
本专栏旨在大数据方面的学习和复习
gscloud
这个作者很懒,什么都没留下…
展开
-
Hbase的数据模型
Hbase的数据模型文章目录Hbase的数据模型NameSpaceTableRowKeyColumn FamilyColumn QualifierTimestampCellNameSpace定义:命名空间,他是指对一组表的逻辑分组,类似RDBMS中的数据库作用:利用命名空间,在多租户场景下可做到更好的资源和数据隔离。命名空间可以管理维护,我们可以创建,删除或更改命名空间两个特殊的命名空间:hbase:系统内建表,包含namespace和meta表default:用户建表时未原创 2021-11-17 20:33:09 · 2191 阅读 · 0 评论 -
Hbase的读写流程
Hbase的读写流程1.hbase的公共流程用户在访问数据时,如何找到该条数据对应的region呢?通过rowkey对应regionserver1.1.HBase 0.96以前系统维护了两张表-ROOT-使用-ROOT-表来记录.Meta.的存放位置-ROOT-表只需要一个Region,它不会被切分-ROOT-的Region信息被记录到Zookeeper.Meta..Meta.表中存储了表对应Region对应的RegionServer Rowkey的区间但是.Meta原创 2021-11-27 10:00:37 · 1513 阅读 · 0 评论 -
redis缓存
缓存文章目录缓存1.什么是缓存?2.缓存的分类3.缓存原理4.Web项目常见的缓存场景5.缓存的四个问题(缓存命中率的设计)5.1.缓存穿透5.2.缓存击穿5.3.缓存雪崩5.4.缓存一致性1.什么是缓存?缓存是存储在计算机上的一个原始数据复制集,以便于访问。2.缓存的分类cpu缓存作用:匹配cpu的频率客户端缓存作用:减少网络访问服务端本地缓存作用:减少磁盘IO分布式缓存作用减少耗时的复杂运算加速DB中的热点数据访问3.缓存原理将数据副本原创 2021-11-25 11:06:50 · 441 阅读 · 1 评论 -
关系型数据库的演变以及非关系型数据库
关系型数据库的演变以及非关系型数据库文章目录关系型数据库的演变以及非关系型数据库数据库分类什么是关系型数据库关系型数据库MySQL数据库的模式的发展mysql的单机时代Memcached(缓存)+ MySQL + 垂直拆分什么是垂直拆分?MySQL主从读写分离分表分库+水平拆分+Myql集群讲分库分表之前先聊一下数据库的存储演变大概什么情况考虑分库分表?MySql数据库分库分表的规则但是分库分表想法上是好的,也带来了一些新的问题MySQL的扩展性瓶颈为什么用NoSQL?非关系型数据库数据库分类而在当今原创 2021-11-03 10:29:56 · 374 阅读 · 0 评论 -
数据仓库,数据集市,数据孤岛,数据湖,数据中台
数据仓库,数据集市,数据孤岛,数据湖,数据中台文章目录数据仓库,数据集市,数据孤岛,数据湖,数据中台1.数据仓库2.数据集市3.数据孤岛4.数据湖5.数据中台1.数据仓库定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定作用数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改这解释一下主题和主题域原创 2021-11-26 09:47:40 · 2456 阅读 · 1 评论 -
Hbase数据刷写
数据刷写1.触发时机MemStore内存默认是128M,当某个MemStore超过128M就会将其所在 region 的所有 memstore 都会刷写。如果我们数据增加的很快,哪怕一到128M就刷写数据量还是在增加(数据增加速度大于刷写速度),当MemStore达到128*4=512MB的时候,就会阻止客户端写入数据到该MemStore当 RegionServer的所有MemStore 占用内存总和大于总内存 *40% *95%的时候,整个RegionServer开始进行刷写如果达到了原创 2021-11-29 09:55:20 · 2710 阅读 · 1 评论 -
ClickHouse数据类型
数据类型文章目录数据类型1.基本数据类型1.1.整数1.2.浮点数1.3.定点数1.4.布尔2.字符串3.日期时间4.复合类型4.1.数组4.2.元组4.3.枚举4.4.嵌套5.其他类型5.1.Nullable(TypeName)5.2.Domain(域)1.基本数据类型1.1.整数整数Int8、Int16、Int32 和 Int64如果加U就是无符号位后面的数字代表位Int8就相当于以前学的byte,Int16就相当于short,int32就相当于int,int64就相当于long原创 2021-11-30 19:45:24 · 590 阅读 · 2 评论 -
十大排序算法
十大排序算法不值钱冒泡排序默认以升序排列(从小到大)冒泡排序就是从第一个开始将相邻的两个进行排序,大的往后移动,然后继续向右进行比较,直到和最后一个比较完,然后又从第一个开始,重复上面的操作,直到倒数第二个,因为最后一个在第一次比较的时候以及确认是最大的了,就这样每轮比较确定一个数据,知道所有数据全部确定。如果后面的数字没有任何交换,那么这个数组就是有序的。平均时间复杂度:O(n^2)最好情况:O(n)最坏情况:O(n^2)空间复杂度:O(1)排序方式:In-place稳定性:稳定原创 2021-11-03 16:45:04 · 237 阅读 · 1 评论 -
数据仓库建模
DataWareHouse数据建模文章目录DataWareHouse数据建模什么是数据建模?什么是数据模型?数据仓库模型的组成为什么需要数据模型?数据仓库的发展大致经历了三个过程数据仓库数据模型架构最后引出什么是数据建模?维度表的分类事实表维度表总结数据组织类型星型模型雪花模型星座模型怎么数据建模?范式建模法(其实就说关系建模)维度建模法实体建模法什么是数据建模?顾名思义就是建立数据仓库模型,所以我们要先了解以下的问题什么是数据模型?数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体和实原创 2021-11-25 13:57:19 · 848 阅读 · 1 评论 -
HDFS读取数据流程
HDFS读取数据流程首先客户端发送请求到DFS,申请读取某一个文件DFS就会取NameNode查找这个文件的信息(比如:权限,文件是否存在)如果文件不存在,或者客户没用权限,那么就抛出指定的错误如果文件存在,返回一个成功的状态如果DFS接收到成功状态就会创建FileDataInputStream对象,客户端再通过这个输入流对象来读取数据客户端会请求文件和BLK的关系,请求BLK与DataNode的关系,然后获取文件第一个Block信息,返回DataNode1 DataNode2 Data原创 2021-12-21 23:05:25 · 281 阅读 · 0 评论 -
Hbase架构
Hbase架构HBase有三个主要组成部分:客户端库,主服务器和区域服务器。1. Client定义:客户端客户端的连接方式shell命令:hbase shell类JDBC(ODBC)API实现(以JavaApi为例)Hbase提供了Java的API来操作表与列簇等信息,它的shell就是对Java的API做了一层封装。Hbase的Java API提供了很多高级的特性元数据管理,列簇的数据压缩,region分隔创建,删除,更新,读取 rowkey发送的请求主要包括原创 2021-11-24 20:30:48 · 1885 阅读 · 1 评论 -
SparkCore之Partitiion
SparkCore之Partitiion文章目录SparkCore之Partitiion1.概念2.Spark Core的数据分区方式2.1.HashPartitioner2.2.RangePartitioner1.概念首先先了解一下Spark RDD,Spark RDD是一种分布式的数据集,但是由于数据量很大,因此要它被切分并存储在各个结点的分区当中,这个“分区”就是Partition-RDD包含多个Partition如图RDD1就包含了4个Partition,RDD2包含了两个原创 2021-12-13 16:08:32 · 1443 阅读 · 11 评论