机器学习基础知识-(适用机器学习难点梳理)

监督学习

分类

二分类、多分类

回归

无监督学习

聚类,也就是我们不知道可以将数据分为几类,分为哪些类,这些是由机器实现的。

模型

有了数据,通过学习某种算法得到的模型,然后进行预测,预测的内容输入是测试样本,需要考虑泛化能力(测试集不在训练集中,在测试集上可以表现出和测试集上相当的性能)

评判一个模型的好坏

1、一种训练集,一种算法
2、一种训练集,多种算法
3、多种训练集,一种算法
4、测试集在多大程度上保持真实性能

评判变量

假设有m个样本,Y为正确结果,Y’为预测结果

错误率

E=a/m
###精度
1-E

错误误差

|Y-Y’|

模型评估方法

1、留出法,如三七分,二八分
2、随机划分
3、交叉验证法,也就是将测试集分成相应的份数,就是几折,交叉测验,如分为10份就是十折,训练10次,对应10个不同的测试集,再取平均值,这种方法因为要进行10次,如果划分的份数越多,需要的算力也就越大。
4、自助法
这种方法会引入估计偏差,一个样本可能始终不会被取到

测试集和验证集的区别

在这里插入图片描述
我们可以看到测试集是和训练集和验证集分开的,验证集是在模型训练的时候用到的,根据模型得到的结果进行调参,使得模型表现出更好的性能,而测试集是不可以的,测试集是在模型完全训练完成之后对模型进行评估的一个数据集,

f(x)预测

均方误差

如果每个Xi的概率是相等的,E(f:d)=1/m ∑(1,m)(f(xi)-yi)²
否者 E(f:d)=∫(f(x)-y)²p(x)dx

错误率,这里的E是代表Error

E(f:d)=1/m ∑(1,m)∏(f(xi)≠yi)
acc(f:d)=1/m ∑(1,m)∏(f(xi)=yi)

查准率

p=TP/(TP + FP)=50/70
在这里插入图片描述

查全率

R=TP/(TP+FN )=50/(50+10)=50/60

阈值

在这里插入图片描述
随着阈值变大,查准率变大,查全率变小。
在这里插入图片描述

N个二分类实现的多分类

1、先计算,后平均
2、先平均,后计算
将上面的表格进行简化后
在这里插入图片描述
在这里插入图片描述
可以得到的曲线是如下
在这里插入图片描述

代价敏感

错误的代价不同,正样本和负样本
在这里插入图片描述

线性模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

多元线性回归

在这里插入图片描述

对数线性回归(非线性)

在这里插入图片描述

单位阶跃函数

对数几率函数

梯度下降

批量梯度下降

每次向多个方向同时移动

随机梯度下降

随机向一个方向走

特征选择方法

filter

与训练分为两个阶段

wrapper

embedding

正则化

避免过拟合的方法
在这里插入图片描述

在这里插入图片描述

调参过程

知道模型是线性回归还是非线性的,但是不知道具体参数
y=wx+b+ε,其中ε是误差。ε是属于一个正态分布,即为N(0.01,1)
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Nefelibat

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值