在学习数据分析时,我们常会提到由于某某数据是某类型,所以采取对于的统计分析方法。所以对于数据类型的了解就变得十分必要。
根据存储方式划分
根据存储方式,我们可以把数据分为结构化数据和非结构化数据。
- 结构化数据:特征和观察值以表格形式存储(行列结构),例如存储个体属性数据的二维表、存储在图或邻接矩阵的关系矩阵;
- 非结构化数据:数据以自由实体形式存在,不符合任何标准的组织层次结构,例如服务器日志、邮件、文本等;
非结构化数据一般可以通过数据预处理转化为结构化数据,以便使用统计方法进行分析。例如,一段文字描述,可使用“字数/短语”,“特殊符号”,“文本相对长度”,“文本主题”来描述文本特征;发帖的文本,可以通过语义分析提取共现词,形成关键词共现矩阵。
根据测量尺度划分
其中的结构化数据根据数据的测量尺度可以划分为分类型数据和数值型数据。
定量数据:用数字表示,并支持包括加法在内的数学运算;
定性数据:用自然类别和文字表示,不支持数字格式和数学运算;
而定量数据可继续分为离散型和连续型:
- 离散型数据&#x