目录
监督学习
分类
二分类、多分类
回归
无监督学习
聚类,也就是我们不知道可以将数据分为几类,分为哪些类,这些是由机器实现的。
模型
有了数据,通过学习某种算法得到的模型,然后进行预测,预测的内容输入是测试样本,需要考虑泛化能力(测试集不在训练集中,在测试集上可以表现出和测试集上相当的性能)
评判一个模型的好坏
1、一种训练集,一种算法
2、一种训练集,多种算法
3、多种训练集,一种算法
4、测试集在多大程度上保持真实性能
评判变量
假设有m个样本,Y为正确结果,Y’为预测结果
错误率
E=a/m
###精度
1-E
错误误差
|Y-Y’|
模型评估方法
1、留出法,如三七分,二八分
2、随机划分
3、交叉验证法,也就是将测试集分成相应的份数,就是几折,交叉测验,如分为10份就是十折,训练10次,对应10个不同的测试集,再取平均值,这种方法因为要进行10次,如果划分的份数越多,需要的算力也就越大。
4、自助法
这种方法会引入估计偏差,一个样本可能始终不会被取到
测试集和验证集的区别
我们可以看到测试集是和训练集和验证集分开的,验证集是在模型训练的时候用到的,根据模型得到的结果进行调参,使得模型表现出更好的性能,而测试集是不可以的,测试集是在模型完全训练完成之后对模型进行评估的一个数据集,
f(x)预测
均方误差
如果每个Xi的概率是相等的,E(f:d)=1/m ∑(1,m)(f(xi)-yi)²
否者 E(f:d)=∫(f(x)-y)²p(x)dx
错误率,这里的E是代表Error
E(f:d)=1/m ∑(1,m)∏(f(xi)≠yi)
acc(f:d)=1/m ∑(1,m)∏(f(xi)=yi)
查准率
p=TP/(TP + FP)=50/70
查全率
R=TP/(TP+FN )=50/(50+10)=50/60
阈值
随着阈值变大,查准率变大,查全率变小。
N个二分类实现的多分类
1、先计算,后平均
2、先平均,后计算
将上面的表格进行简化后
可以得到的曲线是如下
代价敏感
错误的代价不同,正样本和负样本
线性模型
多元线性回归
对数线性回归(非线性)
单位阶跃函数
对数几率函数
梯度下降
批量梯度下降
每次向多个方向同时移动
随机梯度下降
随机向一个方向走
特征选择方法
filter
与训练分为两个阶段
wrapper
embedding
正则化
避免过拟合的方法
调参过程
知道模型是线性回归还是非线性的,但是不知道具体参数
y=wx+b+ε,其中ε是误差。ε是属于一个正态分布,即为N(0.01,1)