Chaya「统计」每日学习 —— (udacity)Intro to Statistics

Lesson3 Looking at Data

可以通过分数占比算出数值

Lesson4 Scatter Plots

通过散点图画出Regression,可明显看出其他噪点
直接通过y除以x得到的数值如果不是整数但几乎在某个值波动,看起来不是线性关系,但可能是y=ax+b的一元二次线性关系而不是y=ax的一元线性关系

Lesson5 Bar Charts

在混乱的二维表点数中存在许多噪音但整体观看又有一定的规律,但此时无法直接通过直线绘制出整体布局趋势,可以通过勾画出在一定区间内的柱状图,选取此区间的平均值作为柱状图的高度,根据每个区间柱状图的高度可大概了解整个数据的整体走向

柱状图可以多维,直方图是二维(大部分统计数值密度)

Lesson6 Pie Charts

Relative Data

Lesson7 Programming Charts(Optional)

直方图看数值范围频率

对于零散且连续的散点图只能粗略看走势,如果只是某个固定的数值上的分布,不能看出大概走势,只能了解在某个值上大部分聚集在什么范围,以及其特殊值

柱状图可以了解在某个固定间隔区域内的数值大致走向是否大致呈线性

Lesson8 Admission Case Study

数字具有迷惑性 每个区域的数据得到的结果会不相同

Lesson9 Problem Set1-Visualization

线性函数中 线上以及线下的含义

根据图像的走势或者图中数量的显示决定图与图之间的变换关系

Lesson10 Probability

Statistics是从现有数据推算出事件的发生,Probability是从事件的发生推算出其产生的数据概率

单个事件的频率=出现指定的次数/所有试验的次数

所有事件的发生的集合称为必然事件

指定事件与对立事件总和为1

独立事件:第一次产生的结果不会影响第二次试验结果

多个独立事件同时发生的概率可通过其单独出现的概率进行相乘得出

Lesson11 Conditional Probability

已知所求事件在特定条件下的概率,求所求事件发生的概率
设A为所求事件,B为特定条件,则有:

P(A)=\sum_{i=1}^{n}P(A|B_i)*P(B_i)

P(A|B)+P(\bar A |B)=1

Lesson12 Bayes Rule

通过已知现象推算出发生原因的概率,设A为已知原因,B_i为结果

P(A,B_i)=P(A|B_i)*P(B_i)

P(A)=\sum_{i=1}^{n}P(A,B_i)

P(B_i|A)=\frac{P(A,B_i)}{P(A)}

Lesson13 Programming Bayes Rule

将概率数值转化为变量进行存储,通过函数输入输出

Lesson14 Probability Distributions

在某个样本空间内,取特定值的概率为0,但取该样本空间里某个区域的概率不为0

例:一个瓶子在360°的圈内进行旋转,记录起始位置,稍微轻碰瓶子,瓶子相比于初始位置旋转到180°的概率为0,即P(x=180)=0。但是相比于初始位置旋转到180°到181°这个范围的概率为1/360,即P(180\leqslant x\leqslant 181)=\frac{1}{360}

密度(density)可大于1

设所发生时间的概率为P(A_i),密度设为des(A_i),选定区域设为a_i-b_i(b_i>a_i),面积设为S

则有S_P_(Ai_)=\sum des(A_i)*(b_i-a_i)\leq 1

面积(所发生事件的概率)= SUM(密度 * 选定区域)==> 总和小于等于1

密度函数不一定是连续的

Lesson15 Correlation vs Causation

有相关性的事物不一定会有因果关系

Lesson16*: Problem Set 2_Probability

基于贝叶斯概率拓展了一些实例

对于其中某个实例的理解如下:

Lesson17: Estimation

maximum-likelihood 最大似然 laplacian 拉普拉斯算子

此处的最大似然估计可以理解为所选的事件出现的频率

 Laplace 的分母是通过在原有数据的基础上添加所有会发生的事件(必然事件),得出来的结果与真实频率相近

Lesson18: Average

Mean(平均数)、Medium(中位数)、Mode(众数)

在一系列的数字当中,差异并不大时可以通过平均数(所有数字总和/数字个数)来反映这串数字的大致趋于什么数值

在一系列的数字当中,差异并不大但有几个比较异常的数值可以通过中位数(将所有数字按顺序进行排序后处于中间的数值)来反映这串数字的情况

在一系列的数字当中,多级分化明显可以通过众数来反映这串数字的情况

Lesson19: Variance

可通过方差(variance)或者标准差(Standard deviation)查看一系列数字中的稳定状况

方差公式 :

Variance:\sigma^2= \frac{1}{N}\sum (X_i-\mu )^2=\frac{1}{N}\sum (X_i)^2-\frac{1}{N^2}(\sum X_i)^2

方差是标准差的平方

Lesson20: Programming Estimators(Optional)

计算数组中众数(mode)

通过 数组名称.count(数组名称[索引]) 可找到当前元素出现的次数
通过比较大小进行替换存储

替换成高效率写法如下:

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值