概率论
- 概率论是一种处理不确定性的框架(Probability as a mathematical framework for reasoning about uncertainly )
- Probabilistic models
— sample space:
1.) “List” (set) of possible outcomes
2.) "List"must be :Mutually exclusive and Collectively exhaustive
3.) Art: to be at the “right” granularity
— Probability law - Axioms of probability
- Simple examples
直方图
使用特定的直方图(Histogram in particular) 可以更好的查看相关数据
- 通过划分范围(经过观察后),其被称为"组距"(class interval)
- 制作频率表格(frequency table),很好的总结,但不能从根本上解决显示的分布状况
排序是一种更好的观测数据的方法 - 直方图(宽,高,面积)
skewed(偏向分布/偏分)
偏向右侧分布的实例有(Ex if the skewed to the right):house price, income, weight(体重)
左偏:用于食品上的开销占总开销的比例
- 百分位数 percentiles
- 四分位数 quartiles 25%
- 中位数 mediun
从直方图上(只)可以估算上面三个数值
用哪个数值取决于你最想表达的
(it depends on what you mean by best)
- 均值 mean best representation of a list of numbers.closest to every element of the list
可以泛泛地理解为 balance point - 中位数 medium 位置在中间
- 众数 mode 数量
归一化:
将一列数据完全的化为一个数
the ultimate reduction of a list of numbers to a single number.
- 极差 range
最大观察数据减去最小观察数据
(the range is a simply the largest observation minus the smallest observation that is a number in statistics) - 四分位差 IQR
25%位置对应的数减去25%位置对应的数。
the interquartile range the IQR is just 75th percentile minus the 25th percentile
实际上,可以帮助你提取中间50%的数据 - 标准差 SD
表中数据和平均数之间的偏差的均方根
standard deviation is the root means square of the deviations of the list from the mean of the list
Def of RMS:
均方根
平方数的平均数的平方根(一种去掉表中元素符号的方法)
root mean square:square root of the mean of the squares
Ex of RMS:
data | -1 | -5 | 0 | 5 | 1 |
---|
The RMS of the list is
( ( − 1 ) 2 + ( − 5 ) 2 + 0 2 + 5 2 + 1 2 ) / 5 = 3.2 \sqrt{((-1)^2 +(-5)^2+0^2+5^2+1^2 )/5}=3.2 ((−1)<