1.贝叶斯统计法
点估计(包含距估计和最大似然估计)属于概率派统计方法
还有另外一种估计θ的方法是贝叶斯统计方法(比如最大后验估计)
Q:什么是先验,什么是后验?
A:先验,θ已知的就是先验,也就是说,在任何事情没发生前,我知道分布p(θ);后验,只要了跟θ相关的信息(比如样本),来预测p(θ),就是后验。
记住下面公式(似乎在学习EKF的时候见过)
实例:贝叶斯线性回归
与通过解决最小二次来找参数w,b不同的是,贝叶斯方法中,把所有的x,w,y设置为r.v.(随机变量),并把它们的分布设为高斯分部。
然后根据
来求
推导过程:
整个想法是,
设即w的分布是全部概率空间的分布-->条件概率公式转化为在约束条件下概率的分布
概率论中我们知道,知道了分布之后,就知道了关于w的全部信息。
2.最大后验估计
记住一个公式:
、1.后面的项类似正则化
2.增加了偏差,减少了方差
不是很懂,可能是因为这里讲的太过于总结性了,需要多积累别的知识
3.学习XOR
之前看吴恩达机器学习的课程时,提到了用激活函数的作用,在那里吴恩达介绍了and,or, not三种逻辑,使用的激活函数是sigmoid,这里用的激活函数是relu函数,所以在这里明白了为什么要用relu函数和sigmoid函数,有这两个函数,可以组成一些逻辑的基本框架,类似数电里面, 有了或与非门之后就可以组装成形成很多复杂的函数了
Q:数电里面,XOR可以用或与非门实现,那为什么还是要用relu函数?只用sigmoid不就行了?
A:
回去想想。。
Q:深度学习的basis也可以理解为这种‘门电路’的组合吗?,深度网络可以理解为更加复杂的‘电路’组成吗?
A:需要知识储备才能回答。。不过至少能完成类似数电里面的一些工作吧
如果可以的话,很多数电的连线方法说不定可以用到深度学习,进行网络模型的构建
4.拉格朗日对偶性
把一个限制问题
通过逻辑证明可以等价转化为
其中
对偶问题:
其中
有下面定理:
1.
2.
3.KKT条件
总结:第一天,没有安排好,11点了还在实验室。。。。。