大数据
文章平均质量分 94
别烦我_
这个作者很懒,什么都没留下…
展开
-
关于Redis集群同步/持久化/淘汰机制的详解
Redis是非常常用的KV数据库, 使用内存以及HashMap进行存储的特点带来了高效的查询. 本文将围绕Redis的常见开发使用场景, 阐述在Redis集群中各个节点是如何进行数据同步, 每个节点如何进行持久化以及在长期使用中如何对数据进行更新和淘汰.下面是Redis在开发过程中常用的几种使用场景.原创 2024-09-06 11:32:31 · 993 阅读 · 0 评论 -
布隆过滤器
布隆过滤在我们项目中的使用和提出背景: 智能抽图, 图配置连边的时候, 要寻找主键的外键, 需要进行数据相似计算.目前, 因为内存的限制, 两边分别采样计算相似率colFullMatch(task.a.Values, task.b.Values)/sampleRate, 存在很大的不确定性.解决的方法就是使用布隆过滤, 一边全量, 一边采样. 全量数据存储在布隆过滤器, 通过存在性判断计算采样数据的相似度.原创 2024-07-05 15:32:46 · 870 阅读 · 0 评论 -
ETCD概述--使用/特性/架构/原理
ETCD是一个高度一致的分布式键值存储, 它提供了一种可靠的方式来存储需要由分布式系统或机器集群访问的数据(高可用, 强一致性)全局的配置服务中心. 本文将介绍其特性、相关操作和常见的应用场景.原创 2024-07-03 14:32:08 · 1189 阅读 · 0 评论 -
分布式数据库HBase:从零开始了解列式存储
在接触过大量的传统关系型数据库后你可能会有一些新的问题: **无法整理成表格的海量数据该如何储存? 在数据非常稀疏的情况下也必须将数据存储成关系型数据库吗? 除了关系型数据库我们是否还有别的选择以应对Web2.0时代的海量数据?** 如果你也曾经想到过这些问题, 那么HBase将是其中的一个答案, 它是非常经典的列式存储数据库. 本文首先介绍HBase的由来以及其与关系数据库的区别, 其次介绍其访问接口、数据模型、实现原理和运行机制. 即便之前没有接触过HBase的相关知识也不影响阅读该文章.原创 2024-07-03 11:48:05 · 1376 阅读 · 0 评论 -
NoSQL数据库详解--小白入门
NoSQL 是对非关系型数据库的统称, 它所采用的数据库模型并非传统关系数据库的关系模型, 而是类似键值对、族列、文档等非关系模型.原创 2024-06-28 10:34:43 · 1145 阅读 · 0 评论 -
HDFS分布式文件系统概述
为了解决大数据量下的高效存储问题, 谷歌开发了分布式文件系统(Google File System,GFS), 通过网络实现文件在多态及其上的分布式存储. 而Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)则是针对GFS的开源实现, 和MapReduce一起成为Haddop两大核心组成部分.兼容廉价的硬件设备: HDFS将硬件节点失效的情况视为"正常"情况, 设计了快速检测应急教案故障和自动恢复的机制. 也开源持续监视, 容错处理等.原创 2024-06-26 15:41:09 · 835 阅读 · 0 评论