https://www.bilibili.com/video/BV164411b7dx?p=90
线性回归
1.Model
A set of function一组函数
2.Goodness of Function评价函数
损失函数 L:
输入:函数,输出:衡量模型how bad is
3.Bset Funcion挑选最好的函数
梯度下降:可微分,找到合适的loss函数
衡量error
关注测试集误差
过拟合
隐藏因素
独热编码
其他隐藏因素
正则化
b上下平滑,不影响
结论
where does the error come from
Estimator评估器
偏差和方差
bias大欠拟合-重新设计模型,选择更复杂模型
variance大过拟合-增加数据量、正则化
model selection
交叉验证
K折交叉验证
分类
后置概率
使用回归做分类
loss function:
分类错误的次数
高斯分布
极大似然函数maximun likelihood
逻辑回归
MSE与logistic函数作为loss对分类影响
高斯分布 Generative 假设
logistic Discriminative
生成模型 vs Discriminative
生成模型优势:
需要更少数据
对噪音不敏感,更健壮
前置和类别可能性拆开可能性,可以来自不同来源
多类
每个类的概率和为1
logistic 回归限制性
边界是线性的
使用过个logistic回归组合
非监督学习
- 聚类和降维
- Generation无中生有
聚类
K均值聚类
层次聚类
Hierarchical Agglomerative Clustering (HAC)
分布式表示 Distributed Representation
一个点一定是一个类,以偏概全
降维
特征选择、PCA
W是正交矩阵
每次投影让方差最大
PCA Compnent
PCA与Neral 两组解
PCA缺点
线性判别分析LDA:
参考:https://www.jianshu.com/p/13ec606fdd5f
component 可以加,减
NMF on MNIST
矩阵分解
没有的值久不算
词嵌入
Neighbor Embedding
manifold learning
locally linear embedding
LLE
异常检测
如果数据符合高斯分布,均值为i,方差为sigma,
可以根据特征的值算概率值,判断是否异常
PCA应用建议
1.压缩数据,减少存储成本
2.加快计算
不建议:
1.防止过拟合
2.一开始就用PCA降维后的数据拟合模型,而不是完整的数据