数据存储
文章平均质量分 80
随着物联网、电子商务、社会化网络的快速发展,全球大数据储量迅猛增长,成为大数据产业发展的基础。根据IDC全球DataSphere的研究,2025年全球新创建的数据将达到175ZB。
YoungerChina
目前从事存储与计算相关的架构设计和研发管理工作
展开
-
跨域数据分布式传输关键技术研究
为有效降低企业运营成本、促进绿色发展,“东数西算”工程已全面启动。在此背景下,构建大带宽、低时延、智能化、安全高效的传输网络,成为实现大数据场景下计算、存储向西部高效转移的关键技术。本文分析了跨域数据分布式传输的研究现状及技术演进,深入浅出地介绍了传输优化、传输保障、安全加密三大关键技术,并对跨域数据分布式传输的未来进行展望,旨在深入探讨如何增强跨域数据交换能力,以提供稳定高性能的文件传输保障。转载 2024-07-24 09:43:05 · 182 阅读 · 0 评论 -
高性能分布式缓存系统 cache
cache项目基于缓存旁路(Cache Aside Pattern)设计,采用了一种独特的双层缓存策略,即首先尝试从本地内存缓存中获取数据,未果则转向全局的Redis缓存。当数据不在任何缓存中时,它将调用加载函数从底层数据库加载数据,并将其存入缓存以备后续快速访问。这一机制确保了即使在极端情况下也能提供高效的缓存服务。转载 2024-06-19 17:22:43 · 118 阅读 · 0 评论 -
探索 Garnet:微软开源的高性能分布式缓存存储系统
微软研究院近期宣布推出一款名为 Garnet 的创新开源分布式缓存存储系统,致力于解决现代应用程序在处理大规模数据时对于高吞吐量、低延迟及卓越可扩展性的严苛要求。这款基于 C# .NET 8.0 构建的新型系统,充分利用了现代硬件能力,为应用程序开发人员提供了加速数据访问与处理的强大工具。转载 2024-06-19 17:20:23 · 225 阅读 · 0 评论 -
阿里云数据湖存储加速套件JindoData
阿里云作为一家全球领先的云计算及人工智能科技公司,其产品EMR提供了相对方便可控的企业级大数据服务,作为EMR的核心,在底层存储也有突出的设计和优化,本文主要调研和阿里云EMR的存储核心产品能力。阿里云EMR在存储领域的核心组件涉及SmartData、JindoData、JindoFS、jindoFSx、OSS-HDFS、JindoCache等概念。本文不讨论阿里云盘古等底层存储系统的设计。原创 2024-03-11 16:11:31 · 2014 阅读 · 0 评论 -
业界主流数据加速技术路线
计算存储分离已经成为云计算的一种发展趋势。在计算存储分离之前,普遍采用的是传统的计算存储相互融合的架构,但是这种架构存在一定的问题,比如在集群扩容的时候会面临计算能力和存储能力相互不匹配的问题。用户在某些情况下只需要扩容计算能力或者存储能力,而传统的融合架构不能满足用户的这种需求,进行单独的扩充计算或者存储能力;其次在缩容的时候可能会遇到人工干预,人工干预完后需要保证数据在多个节点中同步,而当有多个副本需要同步时候,可能会造成的数据丢失。而计算存储分离架构则可以很好的解决这些问题,使得用户只需要关心整个集群原创 2024-03-11 18:00:00 · 1110 阅读 · 0 评论 -
论文导读:fast21 Learning Cache Replacement with Cacheus
CACHEUS建立在LeCaR的成功之上。它在几个方面对LeCaR进行了改进。首先,虽然LeCaR主张使用经典的LRU和LFU,CACHEUS证明了使用更复杂的专家的重要性。其次,CACHEUS通过识别和消除其机器学习机制的冗余方面简化了LeCaR。第三,它创建了一个完全自适应的版本,也是轻量级的。最后,新的轻量级专家SR-LRU和CR-LFU改进了LeCaR的专家,以解决扫描和搅动这两个新的工作负载原语类型。通过这些改进,CACHEUS的表现优于LeCaR以及其他最先进的算法。原创 2023-11-12 22:57:13 · 1630 阅读 · 0 评论 -
ChatGPT带火的HBM是什么?
HBM(High Bandwidth Memory)即高带宽存储器,是基于硅通孔(TSV)和微凸点(Microbump)技术将多个DRAMdie和Logicdie堆叠而成的具有三维结构的存储产品。原创 2024-02-26 10:49:56 · 1716 阅读 · 0 评论 -
HPC集群自动弹性扩缩的两种实现方式
弹性扩缩技术正在成为HPC集群中的一项重要技术。它可以根据实际需求动态调整集群资源,应对用户负载的波动。对于运维团队来说,自动弹性扩缩能够减轻集群运维负担,提高集群资源利用率,降低成本。原创 2023-09-18 14:29:54 · 1960 阅读 · 0 评论 -
2023:生成式AI与存储最新发展和趋势分析(上)
生成式AI的热潮在短时间内席卷全球,以一种势不可挡的趋势迅速出圈,在某一时间段,似乎出现了“除了IT行业,人人都是AI专家”的盛况。这一轮如火如荼的全民AI热潮迸发至今,业已过半载,待最初的烟花绚烂散去,现如今又情形何如?原创 2023-09-18 07:31:01 · 1962 阅读 · 0 评论 -
2023:生成式AI与存储最新发展和趋势分析(下)
近两年存储领域最大的里程碑事件应该是闪存赢得过半市场,Gartner 连续几个季度的市场分析数据中也多次都确认了这一点,固态存储取代机械硬盘的趋势不可逆转。在这一大背景下,有三个新发展方向日益引起更多关注,分别是存储新介质,可计算存储(存算一体)和进一步的极致性能追求。原创 2023-09-18 07:27:29 · 2013 阅读 · 0 评论 -
基于本地持久内存的并行一致性哈希文件系统CHFS
CHFS是一个利用计算节点的持久内存的自适应并行文件系统。该设计完全基于高度可扩展的分布式键值存储,采用一致性哈希算法。CHFS通过消除专用元数据服务器、顺序执行和集中式数据管理,提高了并行数据访问性能和元数据性能的可扩展性。原创 2023-09-18 07:23:39 · 1854 阅读 · 0 评论 -
你真的需要一个(专门的)向量数据库么
随着 LLM 的火爆,向量数据库也成为了一个热门的话题。只需要一些简单的 Python 代码,向量数据库就可以为你的 LLM 插上一个廉价但极有效的“外接大脑”。但是,我们真的需要一个(专门的)向量数据库吗?转载 2023-06-10 16:11:15 · 2273 阅读 · 0 评论 -
被 ChatGPT 点燃的向量数据库们
在 AIGC 革命大爆发的日子,一个特别的挑战是大规模存储和查询非结构化数据(比如图像、视频、文本)的能力。为了快速搜索和理解非结构化数据,现在的普遍解法是使用向量数据库(vector database)。在向量数据库中,向量是一等公民,所有的功能都是围绕着它建立的。向量数据库可以让开发者以向量嵌入的形式处理非结构化数据(两个向量之间的距离代表了它们的关联性),这对于使用和扩展大型语言模型(LLM)尤为重要。转载 2023-06-10 16:05:40 · 1627 阅读 · 0 评论 -
什么是M+N:1纠删码?
除了常见的M+N纠删码之外,还经常见到一种M+N:1的纠删码,这是一种特殊的纠删码技术,称之为亚节点纠删码。原创 2023-04-29 00:15:00 · 2153 阅读 · 0 评论 -
华为联合openEuler发布全新NFS+协议,实现NAS存储性能与可靠性倍增
在openEuler开发者大会2023上,华为携手openEuler发布NFS+协议,实现单客户端访问NAS存储可靠性提升3倍、性能提升6倍,助力NAS存储全面满足新型生产核心场景下苛刻要求。原创 2023-04-27 18:00:00 · 2427 阅读 · 0 评论 -
阿里云CPFS与OSS之间数据双向流动机制
新的目录树结构Fileset能够在CPFS文件系统和OSS之间传输POSIX元数据,这允许您在CPFS和OSS之间维护POSIX权限、所有权和时间戳。有关更多信息,请参阅"数据流动概述新的控制台页面和OpenAPI,为您提供创建、管理、监控CPFS文件系统与其链接的OSS bucket之间的数据传输。有关更多信息,请参阅CPFS OpenAPI参考文档。相较通过ossfs工具将数据从OSS导入CPFS文件系统,导入速度提高了10倍以上,使您在使用数据前只需要等待很短的时间。原创 2023-04-27 19:00:00 · 2020 阅读 · 0 评论 -
大规模MySQL运维陷阱之基于MyCat的伪分布式架构
分布式数据库,已经进入了全面快速发展阶段,这种发展,是与时俱进的,与人的需求是分不开的,因为现在信息时代的高速发展,导致数据量和交易量越来越大。这种现象首先导致的就是存储瓶颈,因为MySQL数据库,实质上,还是一个单机版本的数据库,而只要是单机,就必然会遇到的一个问题就是存储问题,因为存储是硬需求,而CPU和内存如果不够的话,只是性能不好,并不会直接否定方案或者架构。原创 2023-04-12 18:30:00 · 1939 阅读 · 0 评论 -
我们为什么放弃 MongoDB 和 MySQL,选择 TiDB
技术选型是由技术方向和业务场景 trade-off 决定的,脱离业务场景来说技术选型是没有任何意义的,所以本文只是阐述了伴鱼技术团队数据库选型的过程,这并不是 MySQL、MongoDB 和 TiDB 之间直接的比较,只能说明 TiDB 更适合伴鱼的业务场景和技术规划,另外由于 TiDB 是非常新的数据库技术,所以这也能体现出伴鱼技术团队对新技术的态度、技术后发优势的理解、成本与效率的衡权和技术生态与红利的思考。转载 2023-02-02 20:30:00 · 3059 阅读 · 0 评论 -
非结构化数据怎么存?
IDC 预测,2018年到2025年间,全球产生的数据量将会从33 ZB增长到175 ZB,其中超过80%为非结构化数据,并且每年将以指数级趋势递增。数字化汪洋之上,海雾弥漫,遮天蔽日,组织如何冲破重重阻碍,实现对非结构化数据的存储、挖掘和洞察呢?原创 2022-11-18 20:30:00 · 5898 阅读 · 0 评论 -
存储研发工程师 & 数据开发工程师
存储研发工程师和数据开发工程师原创 2022-05-27 15:22:23 · 618 阅读 · 0 评论 -
存储调研:MooseFS分布式文件系统体系结构
MooseFS是一个容错的网络分布式文件系统。将数据分散在多个物理服务器中,但对于用户其实是作为一个可见资源。原创 2022-05-20 00:00:00 · 1036 阅读 · 0 评论 -
MESI协议-缓存一致性协议
. 故障现场 通过监控发现集群状态是HEALTH_ERR状态, 并且发现mds0: Metadata damage detected。 顾名思义,猜测应该是元信息损坏导致的。原创 2021-09-05 10:58:38 · 519 阅读 · 0 评论 -
文件系统特性 - COW事务
理解 COW 事务,必须首先理解 COW 和事务这两个术语。一、事务与COW什么事务? 事务(Transaction)是访问并可能更新数据库中各种数据项的一个程序执行单元(unit)。事务通常由高级数据库操纵语言或编程语言(如SQL,C++或Java)书写的用户程序的执行所引起,并用形如begin transaction和end transaction语句(或函数调用)来原创 2012-01-15 20:37:58 · 5287 阅读 · 4 评论 -
linux硬链接与软连接的区别
Linux链接分两种,一种被称为硬链接(Hard Link),另一种被称为软链接又称符号链接(Symbolic Link)。一、硬链接 硬连接指通过索引节点来进行连接。所以硬链接与源文件共用一个索引节点对象,不共用file对象,不共用dentry对象。 在Linux的文件系统中,保存在磁盘分区中的文件不管是什么类型都给它分配一个编号,称为索引节点号(Inode Index)原创 2011-12-13 23:30:01 · 1464 阅读 · 0 评论 -
link_path_walk()分析
功能:路径名解析 这是一个基本的路径名解析函数,将一个路径名最终转化为一个dentry;成功返回0,并将分量保存在nd中。主要数据结构:struct qstr { /* 用来存放路径名中当前节点的名,长度 */ unsigned int hash; unsigned int len; const unsigned char *name;};struct原创 2011-12-21 23:18:40 · 4594 阅读 · 0 评论 -
inode_operations介绍
与 索引节点inode对象关联的方法称为索引节点操作,由struct inode_operations 结构体描述,该结构的地址存放在inode结构体域变量i_op字段中,struct inode_operations具体描述如下:struct inode_operations { struct dentry * (*lookup) (struct inode *,struct dentr原创 2011-12-14 22:55:04 · 7538 阅读 · 0 评论 -
file_operations数据结构分析
一、引言 struct file代表一个打开的文件,在执行file_operation中的open操作时被创建,这里需要注意的是与用户空间inode指针的区别,一个在内核,而file指针在用户空间,由c库来定义。 file结构体是文件系统的主要数据结构,每个file实例都包含一个指向file_operations结构体的指针,该结构保存了指向所有可能文件系统原创 2012-01-11 21:14:35 · 3993 阅读 · 0 评论 -
IO调度器原理介绍
IO调度器(IO Scheduler)是操作系统用来决定块设备上IO操作提交顺序的方法。存在的目的有两个,一是提高IO吞吐量,二是降低IO响应时间。然而IO吞吐量和IO响应时间往往是矛盾的,为了尽量平衡这两者,IO调度器提供了多种调度算法来适应不同的IO请求场景。其中,对数据库这种随机读写的场景最有利的算法是DEANLINE。接着我们按照从简单到复杂的顺序,迅速扫一下Linux 2.6内核提供的几原创 2013-08-04 19:39:38 · 2456 阅读 · 0 评论 -
在linux系统中跟踪高IO等待
跟踪大型分布式系统的性能问题,从本质上来讲是复杂的。应用为什么慢?瓶颈在哪里?以我的经验,最主要的罪魁祸首之一是高IO等待(即high IO wait)。换一个地方用Dr. Seuss的话来说:每个人都只是在等。翻译 2013-08-28 00:56:18 · 4116 阅读 · 0 评论 -
使用ioctl向linux内核传递参数的方法实例
该篇实例是摘自网络(无法追根溯源倒低是哪位“前”辈写的了)一、应用层uint16 data16;if ((fd = socket(AF_INET, SOCK_STREAM, 0)) { printf("socket failed\n\r");}if(ioctl(fd, SIOCSIFVLAN_PVID_PRI, &data16) { printf("转载 2013-09-05 23:03:25 · 4209 阅读 · 0 评论 -
IO流程中IO向量iovec
为了提高从磁盘读取数据到内存的效率,引入了IO向量机制,IO向量即struct iovec,在API接口在readv和writev中使用,当然其他地方也较多的使用它。原创 2013-09-08 00:30:56 · 3020 阅读 · 0 评论 -
register_sysctl_table实现内核数据交互
Sysctl是一种用户应用来设置和获得运行时内核的配置参数的一种有效方式,通过这种方式,用户应用可以在内核运行的任何时刻来改变内核的配置参数,也可以在任何时候获得内核的配置参数。原创 2013-09-05 22:17:41 · 4171 阅读 · 0 评论 -
【珍藏】linux 同步IO: sync、fsync与fdatasync
延迟写减少了磁盘读写次数,但是却降低了文件内容的更新速度,使得欲写到文件中的数据在一段时间内并没有写到磁盘上。当系统发生故障时,这种延迟可能造成文件更新内容的丢失。为了保证磁盘上实际文件系统与缓冲区高速缓存中内容的一致性,UNIX系统提供了sync、fsync和fdatasync三个函数。 (1) sync函数只是将所有修改过的块缓冲区排入写队列,然后就返回,它并不等待实际写磁盘操作结束。通常称为update的系统守护进程会周期性地(一般每隔30秒)调用sync函数。这就保证了定期冲洗内核的块缓原创 2016-04-11 23:52:39 · 4852 阅读 · 0 评论 -
【珍藏】高性能IO模型浅析
服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种:(1)同步阻塞IO(Blocking IO):即传统的IO模型。(2)同步非阻塞IO(Non-blocking IO):默认创建的socket都是阻塞的,非阻塞IO要求socket被设置为NONBLOCK。注意这里所说的NIO并非Java的NIO(New IO)库。(3)IO多路复用(IO Multiplexi转载 2016-04-12 00:51:09 · 714 阅读 · 0 评论 -
磁盘IO:缓存IO与直接IO
文件系统IO分为DirectIO和BufferIO,其中BufferIO也叫Normal IO。1. 缓存IO 缓存I/O又被称作标准I/O,大多数文件系统的默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中,数据先从磁盘复制到内核空间的缓冲区,然后从内核空间缓冲区复制到应用程序的地址空间。 读操作:操作系统检查内核原创 2016-04-12 01:05:22 · 1358 阅读 · 0 评论 -
Linux IO barrier
I/O顺序问题是一个比较综合的问题,它涉及的层次比较多,从VFS page cache到I/O调度算法,从IO子系统到存储外设。而Linux I/O barrier就是其中重要的一部分。 可能很多人认为,在做了文件写操作后,调用fsycn就能保证数据可靠地写入磁盘。大多数情况下,确实如此。但是,由于缓存的存在,fsycn这些同步操作,并不能保证存储设备把数据写入非易失性介质。如果此时原创 2016-04-12 23:42:12 · 1653 阅读 · 0 评论 -
Linux字符设备与块设备的区别与比较
Linux中I/O设备分为两类:块设备和字符设备。两种设备本身没有严格限制,但是,基于不同的功能进行了分类。(1) 字符设备:提供连续的数据流,应用程序可以顺序读取,通常不支持随机存取。相反,此类设备支持按字节/字符来读写数据。举例来说,调制解调器是典型的字符设备。(2) 块设备:应用程序可以随机访问设备数据,程序可自行确定读取数据的位置。硬盘是典型的块设备,应用程序可以寻址磁盘上转载 2016-05-11 20:54:04 · 1066 阅读 · 0 评论 -
Linux 3.2中回写机制的变革
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://alanwu.blog.51cto.com/3652632/1109952 writeback机制模型 在Linux-3.2新内核中,page cache和buffer cache的刷新机制发生了改变。放弃了原有的pdflush机制,改成了bdi_writeba转载 2016-05-11 21:06:00 · 1003 阅读 · 0 评论 -
Linux 文件系统概述
linux中有很多种文件系统,如,ext2,ext3,ext3,sysfs,procfs等。每种文件系统都有自己的特性。 linux文件系统体系结构通过使用一组通用的API函数,实现了对不同具体文件系统的抽象化。一、文件系统的体系结构 图1中显示了用户空间和内核中与文件系统相关的主要组件之间的关系 图1文件系统的体系结构原创 2011-12-14 00:01:27 · 5717 阅读 · 0 评论 -
linux内核 简化版kset-example.c解析
/********************************************** * Author: lewiyon@hotmail.com * File name: kset_sample.c * Description: kset example * Date: 2011-12-10 **************************************原创 2011-12-11 01:04:57 · 1839 阅读 · 1 评论