- 博客(635)
- 资源 (10)
- 收藏
- 关注
原创 对话ChatGPT:AIGC时代下,分布式存储的应用与前景
作为始终致力于行业创新应用与数据存储技术融合发展的国内领先存储厂商,今天我们“邀请”到ChatGPT对以下问题进行作答,看看它在回答存储专业问题方面的表现。
2023-09-19 08:53:11 2342
原创 AIGC数据处理与存储解决方案
针对在AIGC的场景下,如何解决在AIGC训练过程中数据的存储和数据处理的问题,杨冠军从三个方面进行介绍与解读:一是AIGC对存储提的新需求;二是介绍腾讯云可以给用户提供的整体存储解决方案;三是腾讯云提供的整体数据处理方案。
2023-09-19 08:47:50 2188
原创 HPC集群自动弹性扩缩的两种实现方式
弹性扩缩技术正在成为HPC集群中的一项重要技术。它可以根据实际需求动态调整集群资源,应对用户负载的波动。对于运维团队来说,自动弹性扩缩能够减轻集群运维负担,提高集群资源利用率,降低成本。
2023-09-18 14:29:54 1960
原创 2023:生成式AI与存储最新发展和趋势分析(上)
生成式AI的热潮在短时间内席卷全球,以一种势不可挡的趋势迅速出圈,在某一时间段,似乎出现了“除了IT行业,人人都是AI专家”的盛况。这一轮如火如荼的全民AI热潮迸发至今,业已过半载,待最初的烟花绚烂散去,现如今又情形何如?
2023-09-18 07:31:01 1962
原创 2023:生成式AI与存储最新发展和趋势分析(下)
近两年存储领域最大的里程碑事件应该是闪存赢得过半市场,Gartner 连续几个季度的市场分析数据中也多次都确认了这一点,固态存储取代机械硬盘的趋势不可逆转。在这一大背景下,有三个新发展方向日益引起更多关注,分别是存储新介质,可计算存储(存算一体)和进一步的极致性能追求。
2023-09-18 07:27:29 2013
原创 基于本地持久内存的并行一致性哈希文件系统CHFS
CHFS是一个利用计算节点的持久内存的自适应并行文件系统。该设计完全基于高度可扩展的分布式键值存储,采用一致性哈希算法。CHFS通过消除专用元数据服务器、顺序执行和集中式数据管理,提高了并行数据访问性能和元数据性能的可扩展性。
2023-09-18 07:23:39 1854
原创 【整理】text2kgbench: 语言模型根据本体生成知识图谱的能力
该论文的研究背景是大型语言模型(LLM)和基于本体的知识图谱(KG)在自然语言处理(NLP)任务中的性能提升。 过去的方法存在一些问题,该论文提出的方法通过从文本中生成KG并遵循给定的本体,解决了这些问题,并鼓励了新的方法。 本文提出了Text2KGBench,一个基准测试,用于评估语言模型根据本体从自然语言文本中生成KG的能力。该方法使用两个数据集和七个评估指标来评估抽取性能、本体合规性和LLM的"幻觉"。还提供了两个基准模型的结果。
2023-09-18 07:20:12 2111
原创 【整理】难得的中文开源数据集
上海人工智能实验室搞了一个OpenDataLab,上面发布了5000+的中文的开源数据集,可以随意下载下来,用来训练自己的AI大模型的,真的是功德无量啊。
2023-09-18 07:18:31 3180
原创 基于 Alluxio 构建统一数据接入层
Alluxio 在知乎的多云架构中发挥了重要作用,为我们解决了数据安全、跨云、专线流量等一系列问题,为知乎的数据处理和模型训练提供了高效、安全、便利的解决方案。在未来,我们将继续深入挖掘 Alluxio 的潜力,探索更多的应用场景,为知乎的技术发展贡献更多的力量。
2023-09-13 09:09:06 1804
原创 一文了解数据科学Notebook
主要介绍什么是Notebook,Notebook在数据科学领域的应用的重要性与优势,以及数据科学家/算法团队在选择Notebook时需考虑哪些关键因素。同时,基于Notebook的筛选考量维度,对常见的Notebook进初步对比分析,为数据科学家、算法工程师提供参考。
2023-09-11 09:42:18 1342
原创 【前沿】数据目录是什么?您为何需要它?
数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。
2023-09-08 09:22:46 1053
原创 数据资产管理:数据目录怎么搞?
数据治理定义了数据管理的总体策略,规定了数据管理的组织、制度和流程,明确了数据的权属,定义了数据标准,为数据资产管理指明方向。数据资产目录是数据治理策略的具体执行,以业务友好的方式展示企业的数据资产和位置,帮助用户更好地找到、理解和使用他们的数据。
2023-09-07 19:54:21 1774
原创 浅谈数据治理中的智能数据目录
IBM很早就认识到将机器学习应用到数据管理的重要性,在IBM的Cloud Pak for Data中,机器学习无处不在,遍布数据集成、自动化数据管理、多云数据整合、数据准备、建议和数据洞察
2023-09-07 19:35:50 1014
原创 数据分类分级流程
随着互联网的快速发展和大数据时代的到来,数据分类和分级成为了数据管理中的重要环节。数据分类分级的目的是为了让数据更加有序、易于管理和利用。本文将从数据分类分级的概念、流程和方法等方面进行介绍。
2023-09-05 10:12:43 1760
转载 Milvus 2.1 版本更新 - 简单可信赖、性能持续提升
继年初发布 Milvus 2.0 版本之后,在数百位 Milvus 社区贡献者六个月的共同努力下,我们在早些时候发布了 Milvus 2.1 版本,经过两个月的数次迭代,版本趋于稳定,被国内外头部厂商信任和选择使用。在此次大版本更新中,最为重要的两个关键词莫过于:易用性和性能。
2023-09-05 08:43:33 457
转载 纠删码技术在vivo存储系统的演进【上篇】
本文将学术界和工业界的纠删码技术的核心研究成果进行了相应的梳理,然后针对公司线上存储系统的纠删码进行分析,结合互联网企业通用的IDC资源、服务器资源、网络资源、业务特性进行分析对原有纠删码技术进行优化和微创新,提出了融合EC整体方案以及可落地的RS+LRC+中间结果优化+并行修复跨AZ带宽设计方案,为后续的工程实践提供重要原理和架构支撑。
2023-08-24 17:34:26 462
翻译 翻译:2023年企业数据存储的主要趋势
受云启发的运营模式、先进的闪存技术、网络安全和数据洞察力都是2023年企业最热门的存储趋势。基础设施和运营领导者必须优先考虑这些技术和存储平台,以保持领先于业务需求。
2023-08-16 20:00:00 475
转载 DAOS 分布式异步对象存储|控制平面
DAOS 通过两个紧密集成的平面进行运转。数据平面处理繁重的运输操作,而控制平面负责进程编排和存储管理,简化数据平面的操作。
2023-08-16 00:30:00 344
转载 DAOS 分布式异步对象存储|数据平面
DAOS 通过两个紧密集成的平面进行运转。数据平面处理繁重的运输操作,而控制平面负责进程编排和存储管理,简化数据平面的操作。
2023-08-16 00:30:00 471
转载 DAOS 分布式异步对象存储|相关组件
DAOS 的安装涉及多个组件,这些组件可以是集中式的,也可以是分布式的。DAOS 软件定义存储 (software-defined storage, SDS) 框架依赖于两种不同的通信通道:
2023-08-16 00:15:00 425
转载 DAOS 分布式异步对象存储|分层和服务
基于服务的架构提供了灵活性和可扩展性,它与一组基础架构库相结合,这些库提供了可供所有 DAOS 服务访问的丰富软件生态系统。
2023-08-16 00:15:00 460
转载 聊聊daos高性能分布式存储
Daos(Distribute Asynchronous Object Storage)是基于非易失内存(NVM)构建的一个开源自定义对象存储.daos提供key-value存储接口和提供non-bloking I/O、数据的多版本、快照等功能。Daos存储系统充分利用了下一代的NVM技术,比如SCM(Storage Class Memory)和NVMe(NVM express).采用kernel bypass技术,端对端的运行在用户态,在执行IO操作期间不需要任何的系统调用。
2023-08-15 19:52:28 809
转载 DAOS 分布式异步对象存储|架构设计
分布式异步对象存储 (DAOS) 是一个开源的对象存储系统,专为大规模分布式非易失性内存 (NVM, Non-Volatile Memory) 设计,利用了 SCM(Storage-Class Memory) 和 NVMe(Non-Volatile Memory express) 等的下一代 NVM 技术。
2023-08-15 19:36:01 547
原创 基于鲲鹏平台Ceph深度性能调优
刘亮奇随着 IOT、大数据、移动互联等应用的暴涨,产生的数据也越来越多,整个存储市场总量也逐年增长,预计到 2021 年分布式存储会占到整个存储市场的 50%,到 2027 年,分布式存储会占到整个市场的 70%。Ceph 则是典型的分布式存储软件的代表。杉岩数据作为一家软件定义存储商,软件的发展与硬件的结合密必不可分,与华为共建 ARM 生态是杉岩发展的关键着力点。目前,杉岩数据的对象存储 MOS 和块存储 USP 已完成在鲲鹏平台的适配工作,且可进行商用。
2023-08-15 00:15:00 944
原创 Ceph读写性能估算方法
最近在做Ceph性能测试相关工作,在测试初期由于没有得到理想的测试结果,因此对Ceph集群进行了优化,但是一直有个问题萦绕在我的脑海:基于当前硬件配置,这个Ceph集群的极限是多少?
2023-08-14 01:30:00 539
原创 Ceph Reef版本 RBD 性能测试:80万写IOPS(10节点、60个NVMe SSD)
Ceph 社区最近冻结了即将发布的 Ceph Reef 版本,今天我们研究一下Ceph Reef 版本在 10 个节点、60 个 NVMe 磁盘的集群上的 RBD 性能。在确保硬件没有问题(NVMe 固件更新)后,Reef 能够保证约71GB/s的性能读取和25GB/s的性能写入(75GB/s 复制速度)。对于小型随机 IO,Reef 提供了大约4.4M 随机读取 IOPS和800K 随机写入 IOPS(2.4M 复制速度)。
2023-08-14 01:15:00 923
原创 关于“算力”,这篇文章值得一看
根据罗兰贝格的预测,从2018年到2030年,自动驾驶对算力的需求将增加390倍,智慧工厂需求将增长110倍,主要国家人均算力需求将从今天的不足500 GFLOPS,增加20倍,变成2035年的10000 GFLOPS。这些需求,既有来自消费领域的(移动互联网、追剧、网购、打车、O2O等),也有来自行业领域的(工业制造、交通物流、金融证券、教育医疗等),还有来自城市治理领域的(智慧城市、一证通、城市大脑等)。万物智联时代的到来,大量智能物联网终端的引入,AI智能场景的落地,将产生难以想象的海量数据。
2023-08-14 01:02:21 526
原创 腾讯:海量小文件场景下CephFS优化之路
本文从实际训练场景出发,首先简单介绍了CephFS相关的基本概念,接着通过现象和源码分析训练过程中读取文件缓存失效的原因,然后给出了相应的解决方案。经过优化后,测试任务的训练速度能提升至原来的3~4倍。最后,通过延伸思考来发散思维,简要介绍了不同场景下AI训练加速的技术。
2023-08-13 20:37:19 1096
原创 滴滴Ceph分布式存储系统优化之锁优化
Ceph是国际知名的开源分布式存储系统,在工业界和学术界都有着重要的影响。Ceph的架构和算法设计发表在国际系统领域顶级会议OSDI、SOSP、SC等上。Ceph社区得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是国际云计算领域应用最广泛的开源分布式存储系统,此外,Ceph也广泛应用在文件、对象等存储领域。Ceph在滴滴也支撑了很多关键业务的运行。在Ceph的大规模部署和使用过程中,我们发现了Ceph的一些性能问题。围绕Ceph的性能优化,我们做了很多深入细致的工作。
2023-08-13 14:14:31 1268
原创 Ceph分布式存储系统优化分析
本文介绍了Ceph分布式存储系统的发展历史和特点,并从内部优化机制、面向硬件设备和应用场景这3个方面梳理了现有的性能优化方法。作为一个开源的统一存储系统,Ceph提供了高性能、高可扩展性和高可用的块、文件和对象存取功能。Ceph的特点使之被广泛应用于云计算、高性能计算和大数据处理领域。目前,Ceph的性能优化研究工作虽然有一定的进展,但仍有很多问题尚未完全解决。
2023-08-13 14:00:27 1323
转载 2023年度最热门的10家数据存储初创公司
初创公司通常会把创新重点放在解决存储堆栈的特定部分上,以新方式进入这个业务领域中的某个板块,无论是新的软件功能还是新的硬件产品。
2023-08-13 13:42:47 326
原创 Gartner发布2023年的存储技术成熟曲线
Gartner 发布了2023 年存储成熟度曲线图,与往年一样,图中重点介绍了行业内各种技术的演变情况,其中,不乏一些已经完全淡出人们视线的技术。成熟度曲线图分为五个阶段,从技术萌芽期开始,然后是期望膨胀期、泡沫破裂期、稳步爬升期,最后达到生产成熟期。
2023-08-13 13:16:35 611
转载 论文:算网融合下的多云部署和数据存储发展趋势分析
算网融合因其能够提供高效算力、先进存力、高速运力而成为加速产业数字化转型的重要抓手。在算网融合的演进中也伴随着多云协同、云网协同、云数协同、存算协同等挑战。当前各行各业的上云需求猛增,但是大部分选择了混合多云的部署方式,而数据存储作为承载业务的数据载体,如何协同数据存储与多云的高效发展,推动算网融合落地已经变得越发重要。洞察了在多云发展过程中数据存储的发展趋势,以及在多云环境下数据管理、数据流动中面临的挑战,同时提出数据存储与云原生协同发展的建议,帮助企业在多云架构下选择适合的存储类型。
2023-08-13 12:27:31 329
原创 新一代分布式融合存储,数据场景All In One
智慧时代,数据量激增且非结构化数据的占比逐渐增大,数据类型愈发复杂,处理数据的方式更加多样化,传统单一存储难以满足市场需求。
2023-08-11 08:45:24 1420
原创 主数据管理案例-中国外运
主数据管理工具是中国外运进行数据治理的重要抓手,是公司实现数字化管理、平台化协同和全程可视化服务的重要基础,为公司提供物流数据服务,打通物流链前后各环节提供基础数据支撑。主数据管理是一项长期而艰巨的基础性工作,一期项目的实施只是跨出了一小步,未来中国外运将构建业务统计指标体系、 管理指标体系、梳理资产分类、代码和关键属性值等,后续还有更长的路要走。在认真总结经验的基础上,中国外运更加坚定信心, 继续努力推进数据治理建设和应用推广工作,为公司的平台化、 数字化战略实施做出应有的努力。
2023-08-10 20:17:22 514
原创 主数据管理案例-某研究所
机电类科研生产一体化研究所,具有多品种、小批量、离散性、央企、军工保密等特点,在数据管理系统和研制管理体系的控制下,设计、工艺、 制造、试验、售后服务等环节都产生了大量的数据。在管理信息化、工程信息化的建设过程中,为减少信息孤岛,数据集成与共享不可逾越,不同系统间的数据正确性、一致性变的尤为重要。
2023-08-10 20:09:26 377
转载 2022年16种最佳主数据管理工具(MDM解决方案)
特色平台功能包括用于创建、管理和共享差异化产品数据的产品信息管理、用于存储和共享数字资产的数字资产管理,以及用于跨系统创建单一、受管控的真实数据源的 MDM。Informatica MDM 还具有 AI 和机器学习功能,包括数据质量、数据集成、业务流程管理和数据安全功能,使您可以使用来自外部提供商的数据轻松丰富主数据记录。该产品还具有图形技术和机器学习功能。Ataccama 提供增强型数据管理平台,具有数据发现和分析、元数据管理和数据目录、数据质量管理、主数据和参考数据管理以及大数据处理和集成等功能。
2023-08-10 19:58:49 2615
原创 主数据管理案例-某政务
近年来,我国在大数据发展方面持续发力,取得了明显成效。但也要看到,目前我国大数据发展还存在“孤岛化”“碎片化”等问题,无序参与过度与创新参与不足并存,导致大数据资源配置统筹不,部门间缺乏有效互动,开放的大数据平台缺失,大数据的应有作用尚未充分发挥出来。
2023-08-10 19:53:57 452
原创 主数据管理案例-北京燃气
主数据作为数据资源中最重要、基础的一部分,是北京燃气实现数据资源管理的切入点,对北京燃气而言,实现主数据的集中统一管理也是解决集团信息化建设中“信息孤岛”现象,实现系统集成和业务协同需求最迫切的内容之一。而北京燃气在开展主数据管理、建设数据资源管理系统之前,情况却不容乐观:
2023-08-10 19:41:47 383
大模型专题报告:百模渐欲迷人眼,AI应用繁花开
2024-03-07
存储专题系列一:新应用发轫,存力升级大势所趋
2024-03-06
AI智算时代:算力芯片加速升级
2024-03-06
翻译分布式文件系统:BeeGFS vs GlusterFS.pdf
2023-08-16
2023东北证券-计算机行业AI深度报告,向量数据库:AI时代的Killer+App-230508.pdf
2023-08-15
计算机:CPU生态价值与机遇研究.pdf
2023-08-15
大数据+物联网智慧水务解决方案.pdf
2023-08-15
2022中国图计算技术及应用发展研究报告.pdf
2023-08-15
金融行业信创云基础架构方案评估.pdf
2023-08-15
计算产业发展简史及趋势
2023-08-15
2021全球加密技术发展趋势研究
2023-08-15
2022 分布式存储市场调研报告 + 分布式存储
2022-05-18
下一代数据存储技术研究报告(2021年)
2021-08-01
fio-2.14.tar.bz2
2017-05-03
Linux中LCD设备驱动
2013-11-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人