大数据的表示
一般的将数据分为结构化数据与非结构化数据,结构化数据是指可以以一定形式储存在计算机中可供程序直接使用的数据,而非结构化数据,指那些日常生活中接触到的数据,比如在互联网上普遍存在的亚结构化数据与真实生活场景中的非结构化数据。随着实际网络技术的发展,人们对结构化数据的需求越来越大,一方面非结构化数据向结构化数据的转化的技术不断提高,另一方面结构化数据的表示技术也有所进展。
非结构化数据的转化
对于真实生活场景中的信息化数据,一般将其转化为视频音频以及其他波形图等,这里的数据具有很强的实时交互性。常用的多媒体处理技术主要是BERT ,此外一些用于聚类的无监督学习模型或训练好的模式识别网络也使用广泛。而研究人员主要关注互联网上普遍存在的半结构化数据,尤其是文本数据。
结构化数据的储存
结构化数据的储存一般可以分为传统的数据库储存以及新兴的图数据库储存。对于互联网上大量的结构化数据,若采用传统的数据库储存方法,会出现很稀疏的矩阵,这对数据的储存和计算都带来了不便。传统的文本数据储存是用树结构,不过大多互联网巨头都采用了知识图谱和图数据库的方式储存。