统计学相关（网易公开课笔记）

最新推荐文章于 2022-08-14 15:07:39 发布

GodsLeft

最新推荐文章于 2022-08-14 15:07:39 发布

阅读量2.3k

点赞数 1

分类专栏：学习笔记文章标签：统计学

本文链接：https://blog.csdn.net/godsleft/article/details/57478235

版权

学习笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

机器学习算法

要学习数据挖掘十大算法
抽时间学习一下Hadoop集群性能测试，测试一下集群性能

决策树模型

逻辑斯蒂回归

采用了极大似然估计估计模型参数

最大熵模型

使用连续变量的最大熵模型的公式会简单许多
连续变量的熵 $S(X) = -\int_{-\infty}^{+\infty} f_X(x)logf_X(x) dx$
找几个最大熵模型文本分类的例子
http://www.360doc.com/content/13/1124/05/9482_331694586.shtml

支持向量机

训练数据集的样本点中与分离平面距离最近的样本点的实例称为支持向量(support vector)

拉格朗日对偶性

原始问题是极小极大问题

基本的向量运算

元素对向量求导

设 y 是元素， $X^T=[x_1 ... x_n]$ 是n维向量，则 $dy/dx=[dy/dx_1,dy/dx_2, ... ,dy/dx_n]$

统计学

均值、中位数、众数

中位数：偶数个的时候，中间两数字的平均值

极差、中程数

极差： $max(X)-min(X)$
中程数： $[max(X)+min(X)]/2$

箱线图

集中趋势

平均值（算术平均值）
中位数
众数

样本和总体

$\mu$ :总体均值 $\Sigma_1^Nx_i/N$
$\overline X$ :样本均值

总体方差

$\sigma^2=\sum_1^N(x_i-\mu)^2/N$ :方差，表示集中趋势

样本方差

$\overline x=\sum_1^nx_i/n$
$S^2_n=\sum_1^n(x_i-\overline x)^2/n$ :这个公式总是低估总体方差
$S^2 = S^2_{n-1} = \sum_1^n(x_i-\overline x)^2/(n-1)$ ：总体方差的无偏估计

标准差

$\sigma$
$S = \sqrt{S^2}$ ，并不是总体标准差的很好的估计

诸方差公式

$\sigma^2 = \sum_1^Nx_i^2/N - \mu^2$

随机变量

通常用大写字母表示
随机变量更像是一个从随机过程到数字的函数映射，并且这个数字是随机的
离散和连续的

概率密度

二项分布

将一个硬币抛5次，随机变量 $X$ 表示正面向上的次数
$C_n^a=n!/[a!(n-a)!]$
所有的概率都可以通过二项式的系数求出
二项分布和正太分布有很大的关系

期望值

$E(X)$ :就是平均值

二项分布的期望值

$E(X)=np$

泊松分布

一小时内通过的车辆数, $X$
经过多个小时的观察泊松分布的E(X)=λ=np
- n是时间区间的个数
- $\lambda$ 是一个小时内实验成功的总次数
- p是小区间内成功的概率
两个假设
- 任意时刻的情况没有差异
- 一段时间内的流量对另一段时间的流量没有影响
泊松分布实际上来自于二项分布
- 将一个小时分为3600秒，或者更多
- 一小时内通过的车辆为 $\lambda$ ，所以单位时间内通过的车辆的概率 $\lambda/3600$
- $P(X=k) = C_{3600}^k(\lambda/3600)^k(1-\lambda/3600)^{3600-k}$
- $P(X=k) = lim_{x \to \infty}C_n^k(\lambda/n)^k(1-\lambda/n)^{n-k} = \lambda^ke^{-\lambda}/k!$

大数定律

样本足够大的时候，样本均值接近总体均值或随机变量的期望值
例子：随机变量 $X$ 表示，抛硬币100次，正面向上的次数

正态分布

$f(x) = \frac 1{\sigma\sqrt{2\pi}} e^{-\frac12({x-\mu \over \sigma})^2}$
二项分布是正态分布的很好的近似，只要试验次数很多的时候
$({x-\mu \over \sigma})$ :是离均值的距离除以标准差，离均值有几个标准差，又称为标准z分数
z分数可以用在任何分布上
中心极限定理：抛一枚硬币，1为正，0为反，随机变量的和接近正态分布
$f(x) = {1 \over \sqrt{2\pi\sigma^2 e^{z^2}}}$
累积分布函数： $CDF(x) = \int_{-\infty}^xf(x)dx$
经验法则：68-95-99.7法则

中心极限定理

从均值为 $\mu$ 、方差为 $\sigma^2$ ，的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为 $\mu$ 、方差为 $\sigma^2/n$ 的正态分布。
n代表样本容量
为什么n越大，样本分布越集中？：简单的答案：因为原始分布并不是一个均匀分布，取得的数值越多，即n越大，样本均值就越接近总体均值，所以n越大，越集中，即标准差越小