描述统计:数值测量

第三章 描述统计:数值测量

Measures of location

  1. 均值(mean)
  2. 中位数(median)
  3. 众数(mode)
  4. 百分比(percentiles):至少P%的观测值<=该值,至少(100-P)%的观测值>=该值
  5. 四分位数(quartiles)
    注意:均值和中位数都反映数据的集中趋势,但均值易受极端值影响。

波动性测量

  1. 极差(range)
  2. 四分位差(Interquartile Range)这里写图片描述
  3. 方差(variance):
    总体方差 这里写图片描述
    样本方差 这里写图片描述
  4. 标准差(Standard Deviation)
  5. 变异系数(Coefficient of Variation)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数值型数据处理的步骤中,我们通常会执行以下操作: 1. 缺失值处理:检查数据中是否存在缺失值,并决定如何处理它们。可以选择删除包含缺失值的样本,使用平均值或中位数填充缺失值,或者使用机器学习算法进行插值等方法。 2. 特征缩放:在某些情况下,数据特征的值范围可能会很大,这可能导致某些算法受到影响。因此,我们需要对特征进行缩放,以确保其值在合理范围内。常见的缩放方法包括标准化和归一化。 3. 异常值处理:检测和处理异常值,这些异常值可能是由于测量误差或数据录入错误引起的。可以使用统计方法,如Z-score或箱线图来识别异常值,并根据具体情况进行处理,例如删除异常值或使用插值方法进行替换。 4. 特征选择:在一些情况下,数据集可能包含大量特征,其中许多特征可能对于预测任务并不重要或冗余。因此,我们需要进行特征选择,以减少特征维度并提高模型的性能。常见的特征选择方法包括相关系数分析、方差阈值和正则化方法等。 5. 特征工程:根据领域知识和数据的特点,我们可以创建新的特征来更好地描述数据。这可能包括创建交互特征、多项式特征、时间序列特征等。 以上是一些常见的数值型数据处理步骤,具体的处理方法和步骤可能因数据集的特点和任务的要求而有所不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值