统计学基础

统计学是探索数据规律的科学,包括描述统计学和推断统计学。描述统计学关注数据的获取、处理和特征提取,而推断统计学则通过样本推断总体。应用上,如谷歌票房预测模型,通过对数据的均值、中位数、众数等分析了解其趋势和离散程度。欠拟合和过拟合是模型拟合的两种状态,分别对应大偏差小方差和小偏差大方差。解决过拟合的方法包括增加数据量和正则化。衡量离散程度的指标有极差、方差、偏态和峰度。
摘要由CSDN通过智能技术生成

imooc

统计学

  • 是一门收集、整理和分析统计数据的方法科学
  • 其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识
  • 统计学研究随机现象,以推断为特征,”由部分推及全体”的思想贯穿于统计学的始终
描述统计学(Description Statistics)

◆研究如何取得反映客观现象的数据【获取数据】
◆并通过图表形式对所收集的数据进行加工处理和显示【处理数据】
◆进而通过综合概括与分析得出反映客观现象的规律性数量特征【提取数据特征】

推断统计学(Inferential Statistics)

◆研究如何根据样本数据去推断总体数量特征的方法【样本推断总体】
◆它是在对样本数据进行描述的基础上
◆对统计总体的未知数量特征做出以概率形式表述的推断

应用

谷歌票房预测模型

数据描述方法

在这里插入图片描述
获取到数据之后,怎么分析数据呢?就从以上三个方面入手,查看数据的数值都偏向于吃什么趋势,离散程度,还有数据表示在n维坐标中时的形状如何。

  1. 均值(Mean):是指在一组数据中所有数据之和再除以数据的个数;它是反映数据集中趋势的-项指标。
  2. 中位数(Median):将数据排序,取最中间的数作为中位数。(如果偶数个数据,取最中间两个数的平均数)
  3. 众数(Mode):出现次数最多的数。(可以存在多个众数,也可以不存在众数,也适用于非数值型数据)在这里插入图片描述
    定义误差函数,通过将误差最小化来提高模型的性能。单纯将误差最小化并不能保证模型在更一般的场景中能高性能的使用,甚至有的条件下是不可用的。训练数据集的误差和一般数据集的误差的差异叫做泛化误差,又可以分为偏差和方差。
    在这里插入图片描述
    方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。 f ( x ; D ) f(x;D) f(x;D)表示训练集D通过模型f对样本x的预测, f ( x ) ˉ = E D ( f ( x ; D ) \bar {f(x)}=E_D(f(x;D) f(x)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值