数据挖掘之认识数据

认识数据,不仅要了解数据的属性、类型和量纲,还要了解数据的分布特性。

只有充分认识了解要挖掘分析的数据,才能更好的检测数据的质量,助力于后续的挖掘工作。

一、数据类型

1、属性类型

数据的属性的类型由该属性可能具有的值的集合来决定,可分为标称属性(类别、编码、状态等)、二元属性(0或1)、序数属性(满意度等有意义的序数)、数值属性(身高等可测量的数值)。

数据属性还可分为离散属性和连续属性。

1)离散属性(Categorical Attribute)

  • 定义:离散属性是指取值是有限个数或可以被枚举的属性。这些取值通常是类别、标签或符号。
  • 例子
    • 性别:男、女。
    • 血型:A型、B型、AB型、O型。
    • 国家:美国、中国、法国。
  • 处理方法
    • 编码:将类别数据转化为数值数据,如独热编码(One-Hot Encoding)、标签编码(Label Encoding)。
    • 统计分析:使用频率、模式等进行描述。
    • 可视化:常用条形图、饼图等方式进行可视化。

2)连续属性(Continuous Attribute)

  • 定义:连续属性是指取值是实数或无限可能的属性。它们通常表示可以测量或量化的量。
  • 例子
    • 身高:1.75米。
    • 体重:68千克。
    • 收入:50000元。
  • 处理方法
    • 归一化/标准化:对数据进行归一化或标准化处理,如最小-最大归一化、Z-Score标准化。
    • 统计分析:使用均值、中位数、方差、标准差等进行描述。
    • 可视化:常用直方图、散点图等方式进行可视化。

2、数据集类型

1) 按数据属性类型分类

  • 结构化数据集
    • 数据以表格形式存储,有明确的行和列。
    • 例子:关系数据库中的表格数据、CSV文件。
  • 非结构化数据集
    • 数据没有固定的结构,难以存储在关系型数据库中。
    • 例子:文本、图像、音频、视频数据。
  • 半结构化数据集
    • 数据没有严格的结构,但有一定的格式或标记。
    • 例子:JSON、XML文件。

2) 按数据标注类型分类

  • 监督学习数据集
    • 数据集包含输入(特征)和对应的输出(标签)。
    • 例子:用于分类或回归任务的数据集,如MNIST手写数字数据集。
  • 无监督学习数据集
    • 数据集只有输入数据,没有标签。
    • 例子:用于聚类或降维任务的数据集,如文本聚类数据。
  • 半监督学习数据集
    • 数据集中包含一部分有标签的数据和一部分无标签的数据。
    • 例子:在标注成本高的数据集上经常使用,如医学影像数据。
  • 强化学习数据集
    • 数据集记录了状态、动作和奖励,用于训练强化学习模型。
    • 例子:游戏中的动作-奖励数据。

3) 按数据获取方式分类

  • 实验数据集
    • 通过实验获得的数据集,通常在受控环境下收集。
    • 例子:科学实验数据、实验室测试数据。
  • 观测数据集
    • 通过观察自然或社会现象获得的数据集,通常不干预。
    • 例子:气象数据、市场研究数据。
  • 模拟数据集
    • 通过计算机模拟生成的数据集,常用于模拟实际环境。
    • 例子:模拟交通流量、金融市场。

4) 按数据集的使用目的分类

  • 训练数据集
    • 用于训练模型,模型在这个数据集上学习数据模式。
  • 验证数据集
    • 用于调参和验证模型性能的中间数据集。
  • 测试数据集
    • 用于评估模型最终性能的数据集。

5) 按数据集的领域分类

  • 图像数据集
    • 包含图像数据,通常用于计算机视觉任务。
    • 例子:ImageNet、CIFAR-10。
  • 文本数据集
    • 包含文本数据,通常用于自然语言处理任务。
    • 例子:IMDb影评数据集、Wikipedia文本数据集。
  • 时间序列数据集
    • 包含时间序列数据,通常用于预测分析。
    • 例子:股票价格数据、传感器数据。

这些分类有助于理解和选择合适的数据集以及相应的处理方法和算法。

三、数据质量分析

  1. 缺失值分析

1)描述:缺失值是指数据集中缺少的部分。它们可能出现在单个特征或整个记录中,常见原因包括数据录入错误、系统问题或某些数据本来就不可用。

2)方法

        统计分析:计算各个字段中的缺失值百分比。

        可视化工具:利用热图、条形图或箱线图来显示缺失值的分布情况。

        填补策略:可以使用均值、中位数、众数、前后值或插值方法填补缺失值,或者干脆删除这些记录。

  1. 异常值分析

1)描述:异常值是指与数据集中的其他数据点显著不同的数据点,可能是由数据录入错误、传感器故障或其他异常情况引起的。

2)方法

  • 统计方法:使用均值和标准差、IQR(四分位距)等统计指标来识别异常值。
  • 可视化工具:使用箱线图、散点图、Z得分等来检测异常值。
  • 自动化工具:基于机器学习的异常检测算法(如孤立森林、LOF)也能自动发现异常值。
  1. 不一致的值分析

1)描述:不一致的值是指同一数据集中存在格式不统一、编码不一致或内容不一致的数据。例如,同一字段中既有全称又有缩写,或日期格式不统一。

2)方法

  • 数据校验规则:定义和应用一致性规则,如正则表达式检查、编码匹配、日期格式校验等。
  • 数据清洗:自动或手动纠正不一致的数据,例如通过映射表、转换规则、或者数据标准化工具。

通过系统化地进行这些分析,可以提高数据的质量,从而为后续的数据挖掘和分析奠定坚实的基础。

四、数据特征分析

数据特征分析是数据科学和数据挖掘中的关键步骤,主要目的是理解数据的属性、分布和结构,以便为后续建模和分析做准备。

1. 描述性统计分析

  • 描述:计算每个特征的基本统计量,如平均值、中位数、众数、标准差、最小值、最大值、分位数等,以了解数据的基本特征。
  • 方法
    • 均值:数据的平均值,反映数据的中心趋势。
    • 中位数:排序后的中间值,用来衡量数据的中心。
    • 众数:数据中出现频率最高的值,适用于分类变量。
    • 标准差和方差:衡量数据的离散程度,标准差是方差的平方根。
    • 分位数:如四分位数,用于描述数据的分布。

2. 分布分析

  • 描述:分析每个特征的分布情况,以了解其值的范围和频率分布。
  • 方法
    • 直方图:展示数据在不同区间内的频率分布,适用于数值型数据。
    • 密度图:平滑后的数据分布曲线,更直观地展示数据的概率密度。
    • 箱线图:通过四分位数、最小值、最大值和异常值来展示数据的分布。
    • 核密度估计(KDE):用于估计数据的概率密度函数,展示数据的分布形状。

3. 相关性分析

  • 描述:研究特征之间的相关性,了解它们之间的线性关系或其他形式的依赖关系。
  • 方法
    • 皮尔逊相关系数:测量两个变量之间的线性关系,值范围为 -1 到 1。
    • 斯皮尔曼相关系数:基于秩次的相关性,适用于非线性关系。
    • 热力图:展示多个特征之间的相关性矩阵,直观反映特征间的相关性强度。

4. 数据分组分析

  • 描述:根据某些特征将数据分组,分析各组内的特征分布和差异。
  • 方法
    • 分组统计:按某个分类特征分组后,计算其他特征的均值、方差等统计量。
    • 透视表:常用于汇总分组后的数据,适合进行多维度分析。
    • 分组可视化:如分组箱线图、分组直方图等,用于比较不同组之间的差异。

5. 维度分析

  • 描述:分析数据集中的特征数量及其对模型的影响,可能涉及降维操作。
  • 方法
    • 主成分分析(PCA):将多维数据降维到较低维度,保留主要信息。
    • 因子分析:研究观测变量与潜在因子之间的关系,用于数据简化。
    • 特征选择:利用统计方法或算法,选择对模型影响较大的特征。

6. 特征工程

  • 描述:通过创建新特征或转换现有特征,提升数据的可用性和模型性能。
  • 方法
    • 特征组合:通过加减乘除等操作,将现有特征组合成新的特征。
    • 特征变换:如对数变换、归一化、标准化等,改变特征的分布或量级。
    • 类别编码:将分类特征转换为数值特征,如One-Hot编码、标签编码。

通过全面的数据特征分析,可以深入理解数据的结构和特性,识别出关键特征,并为数据建模和决策提供有力支持。


认识数据是数据挖掘的基础中的基础,只有很好的认识了解数据,才能为下一步的数据预处理以及数据挖掘服务。

  • 13
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值