目录
前言
暗数据指的是存在于组织内部但尚未被充分利用或分析的数据。这些数据通常未被结构化或整理,可能散布在各个部门或系统中,难以被直接访问或理解。暗数据可能包括未经处理的文本文件、未使用的图像或视频素材、未被分析的日志文件等。对企业来说,通过有效的数据分析和挖掘技术,如数据清洗、整合、分析和可视化等步骤,可以转化这些未被利用的数据为有用的信息,从而确保数据的准确性和可理解性,从暗数据中获取新的价值,进而支持决策制定、改善流程效率等。
IDC的调研报告显示:暗数据占数据总量的68%以上,且占比在逐年攀升。根据行业的不同,企业的暗数据在其数据总量中的占比从40%到90%不等。充分利用暗数据将为企业带来巨大的利润,但现阶段,暗数据如同不能丢弃的垃圾,会加剧数据ROT(冗余,过时和琐碎),降低数据发挥价值的效率与能力,不仅会给企业带来巨大的维护开销,同时会对企业造成潜在的风险和损失。根据Veritas公司的数据显示,平均每家公司每年要花费4650万美元来存储从未使用过或使用频率极低的数据,但却无法按需使用这些数据。目前,国内的大部分相关部门和企业并未意识到暗数据的存在,也不了解处理暗数据的意