对于linear regression,是不存在local optimal,不需要考虑是否有多个local minima
非linear regression,需要考虑很多凹凸不平时:
当到达一个critical points时,可以通过Hessian判断是saddle point,local minima,maxima,如果到的saddle point,那么使用负的特征值还可以继续下降;实际上local minima很少,因为在更高维度,也许还可以继续下降,可以通过minimum radio 判断是否更接近local minima
二次型、特征值、多项式二次导
一些随想记下:
图像识别是否是一定意义上的有监督学习,因为label是人为加上去命名的条件,而图像识别到的规律,也许会受限于人为命名的label
如此假设数据集不是随机分布的,那么是不是一定程度上都是有监督学习,如果能够把样本集上叠加的不同分布识别出来,不管是几个维度
如此又涉及到分类的方法,所带给数据集的限制,使得数据集收敛得到分布(不同的方法也许得到不同的分布(label)),也即是说,有监督学习
SVM把样本投射到高维,我们需要知道标签,是有监督学习,需要加上限制,使得模型收敛;那么对于降维,如PCA等,分类,是不是无监督学习?我们能不能加上些限制,使得模型收敛?
训练集高分,测试集预测低分,首先需要区分是分布不同还是时序原因;分布不同的话,贝叶斯的最大后验估计要共轭先验,那非共轭分布怎么处理呢?这个是不是典型的训练集,测试集分布不同?看到过质量控制有关非共轭分布的文章,没有深入研究,感觉非共轭分布可能真实还蛮多的?Gibbs采样什么的;时序原因的话,如果因为突变造成的“分布”不同,要考虑突变是不是噪声,噪声可以通过滤波去除,如果不是噪声,信号也可以通过滤波等方法提取出来~
label,数据处理方法,采样方式