classification
introduction
机器学习就是自动找函式
- speech recognition
- image recognition
- playing go
- dialogue system
classification
1.1 maximum likelihood
一直sample,看当parameter是多少的时候,最有可能sample出来这些sample
1.2 classification
已经通过maximum likelihood 算出来parameter了之后,就可以求posteriorial distribution
1.3 modifying model
并不是所有时候不同的class function都会有不同的mean 和 covariance, 比较常见的做法是不同的class share同一个mean and variance
因为如果covariance matrix中parameter的数量和feature的平方数量成正比,所以如果每个function都有不同的variance,那么parameter会太多,这样容易overfittiing
两个class拥有不同的mean但是公用同一个covariance
这样的maximum likelihood算法
当你公用一个covariance matrix的时候,boundary会是linear,这样也同样是linear model(后面有证明)
1.4 probabiliity distribution(naive bayes classifier)
如果x是由x1,x2,x3…xk组成的,而且他们相互之间independent,原来是k维的guassian,现在分成k个一维的guassian, If you assume all the dimensions are independent, then you are using Naive Bayes Classifier
1.5 posterior probability (sigmoid)
sigmoid function推导(只是针对z服从Gaussian distribution且只有两个class)
这里算出来是linear,就可以解释为什么前面说如果公用covariance matrix的话,boundary是linear的,但是我们不需要从mean和covariance入手再去求w和b。我们是否可以直接求w和b呢?