论统计学知识点
前言
统计学在数据分析的基础上,研究如何测定,收集,整理,归纳和分析数据规律,以便给出正确消息的学科。它在数据挖掘,自然语言处理,机器学习中都被广泛使用,比如博主之前的那篇关于规则与统计相结合的词义消岐方法研究学习笔记,其中作者就用到了统计学。
一、 图形可视化
说明
所谓的图形可视化就是将自己的数据利用图形(各种各种的图形)展现出来,这样对于用户来说无疑是最直观的,最具明显的来分析自己的数据。比如博主最近遇到项目上的一个关于器件价格的一个问题,就是将指定的器件按照它的购买价格,购买时间使用图形可视化(折线图),这样我们就能很“舒服”的了解这个器件的基本信息。
具有哪些图形?
- 饼图
- 条形图
- 热力图
- 折线图
- 箱线图
- 散点图
- 雷达图
- 仪表图
例如图形如下所示
饼图:
条形图:
这里就不一一列举了。
资源
相应的案例:
获取链接: https://download.csdn.net/download/jiajikang_jjk/10751628
二、数据度量标准
-
平均数
-
中位数
说明:
奇数 n 个数值,则中位数位置: n + 1 2 \frac{n+1}{2} 2n+1
偶数 n 个数值,则中位数位置: n 2 \frac{n}{2} 2n -
众数
-
期望
-
方差
X是服从分布F的随机变量,如果 E ( X ) E(X) E(X) 是随机变数X的期望值(平均数u=E[X]),则随机变量X或者分布F的方差是:
V a r ( X ) = σ 2 = ∑ E ( X − u ) 2 N Var(X)=\sigma^2=\frac{\sum{E(X-u)^2}}{N} Var(X)=σ2=N∑E(X−u)2
连续随机变量
如果随机变数X是连续分布,并对应概率密度函数 f ( x ) f(x) f(x),则方差是
V a r ( X ) = σ 2 = ∫ ( x − u ) 2 f ( x ) d x = ∫ x 2 f ( x ) d x − u 2 Var(X)=\sigma^2=\int(x-u)^2f(x)dx=\int x^2f(x)dx-u^2 Var(X)=σ2=∫(x−u)2f(x)dx=∫x2f(x)dx−u2 此处 u的期望值 u = ∫ x f ( x ) d x u=\int xf(x)dx u=∫xf(x)dx
离散随机变量
如果随机变数X是具有概率质量函数的离散概率分布 x 1 → p 1 , . . . x n → p n x_1 \rightarrow p_1,...x_n \rightarrow p_n x1→p1,...xn→pn, 则:
V a r ( X ) = ∑ i = 1 n p i ( x i − u ) 2 = ∑ i = 1 n ( p i x i 2 ) − u 2 Var(X)=\sum_{i=1}^{n}p_i(x_i-u)^2=\sum_{i=1}^{n}(p_ix_i^2)-u^2 Var(X)=∑i=1npi(xi−u)2=∑i=1n(pixi2)−u2 -
标准差
方差开方就是标准差 -
标准分
三、概率分布
- 几何概率
- 二项分布
- 正态分布
- 泊松分布
四、统计假设检验
假设检验是推论统计假设的一种方。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数就会希望根据结果对未知的真正参数值做出适当的推论。假设检验的种类包括:t检验,z检验,卡方检验,F检验,等等。
这里博主只是提出知识点,并不过多深究(论述统计学的知识点)
五、相关和回归
- 相关
1: 正线性相关
2:负线性相关 - 回归
1:最佳拟合线预测
2:线性回归
3:逻辑回归
总结
以上五个部分的简单概括,都是关于统计学的相关知识点。前言也说明了关于统计学用到的范围特别的广泛。所以运用好统计学是非常重要的。
说明
本文翻译出处:《自然语言处理理论与实战》