统计学——认识数据

本文介绍了数据的四种属性类型:标称、二元、序数和数值,并详细阐述了数据的中心趋势度量(均值、中位数、众数)以及分散性度量(极差、四分位数、方差、标准差),强调了在面对不同属性类型和异常值时选择合适统计量的重要性。
摘要由CSDN通过智能技术生成

1、数据属性

数据属性可以是标称的、二元的、序数的、数值的

  • 标称的数据
    标称属性又可以看作是分类的
    对于标称属性,平均值和中位数没有意义,属性最常出现的值,众数是有意义的
    例如:婚姻状况(单身、已婚、离异、丧偶)
  • 二元的数据
    二元属性也是一种标称属性,只有2个类别或状态:0或1
    其中0代表该属性不出现,1代表属性出现
    如果两种状态对应True和False的话,那二元数据也称为布尔数据
    例如:性别(男、女)
  • 序数的数据
    序数属性,其可能值之间具有有意义的序,但是相继之间的差是未知的
    序数属性的中心趋势可以用众数和中位数表示,但不能用均值
    例如:教师等级(助教、讲师、副教授、教授)
  • 数值的数据
    数值属性是定量的,是可以度量的,用整数或实数表示。可以是区间标度的或者比率标度的
    区间标度属性:区间标度属性用相等的单位尺度度量,区间属性的值有序,可以为正、0、负
    例如:温度属性是区间标度的
    比率标度属性:比率标度的属性是具有固有零点的数值属性,如果度量是比率标度的,我们可以说一个值是另一个值得倍数(或比率)
    例如:重量,高度,速度等属性

注意:标称、二元、序数属性都是定性的,他们描述对象的特征,而不给出实际的大小或数量,这种定性属性的词通常是代表类别的词。数值属性可以用均值、中位数、众数表示中心趋势

机器学习领域的分类算法通常把属性分成离散的和连续
离散属性具有有限或者无限个可能值,可以用或者不用整数表示
例如:用户ID
连续属性于数值属性的差别:在经典意义下,连续值是实数,而数值值可以是整数或实数,连续属性一般用浮点变量表示

2、数据的基本统计描述

2.1 中心趋势度量
  • 均值
    平均数的一般度量,是应用最广泛的统计度量之一,通常用 μ \mu μ表示
    μ = ∑ i = 1 n x n \mu=\frac{\displaystyle\sum_{i=1}^nx}{n} μ=ni=1nx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值