在当今数字化时代,PB 级别大数据正日益成为各领域关注的焦点。PB 即佩他字节,1PB 约等于 1000TB 或 100 万 GB,代表着极为庞大的数据存储容量。
中国科研团队在超大容量超分辨三维光存储研究中取得突破性进展。上海光学精密机械研究所与上海理工大学等科研单位合作,利用国际首创的双光束调控聚集诱导发光超分辨光存储技术,实现了点尺寸为 54nm、道间距为 70nm 的超分辨数据存储,并完成了 100 层的多层记录,单盘等效容量达 PB 量级。这一成果相当于把数据中心机柜缩小到一张光盘上,对于我国在信息存储领域突破关键核心技术、实现数字经济可持续发展具有重大意义。
睿帆科技作为大数据解决方案供应商,其研发的底层大数据科学平台产品 Baymax 经过多年打磨,已经能够提供 PB 级的异构数据接入、存储、清洗、治理等数据处理能力。目前,睿帆科技是中国移动最大的大数据合作伙伴,为全国近一半的省份提供大数据服务支持。
ClickHouse 是一款俄罗斯 Yandex 公司开源出来的 MPP 架构的列式数据库,主要用于大数据分析领域,具有快速查询、线性可扩展、功能丰富等优点。今日头条、携程、快手、腾讯、阿里云等企业都在使用 ClickHouse,其中今日头条用户行为分析几千个 ClickHouse 节点,总数据量几十 PB,几百 TB/天。
Python 在处理 PB 级数据方面也有多种策略。大数据计算框架 PySpark 和 Dask 允许 Python 程序利用分布式计算能力处理大数据。数据分析与机器学习方面,Pandas、Scikit-learn 和 TensorFlow 等库在数据适合内存的情况下可进行机器学习任务,TensorFlow 支持分布式训练,可处理 PB 级数据。处理 PB 级数据可采用数据分割、增量处理和采用适当的数据格式等策略。
企业在面对 PB 级数据时,也在寻求高效低成