机器学习 - 1

使优化目标达到最好的假设。


假设是历史观测中表现最好,是不是在未来也表现最好?需要验证。
1、过拟合
2、正则化
3、校验


评估方法有哪些?






1、假设空间
线性关系
2、优化目标
均方误差最小
3、寻解算法
导数为0,微分方程




假设的设定:
回归场景:
线性回归:线性关系(实数域)。
分类场景:
1、分类假设,感知机(阶跃函数):输出类别的编号(概率=1)。
2、概率假设,逻辑回归(sigmod函数):输出类别的概率。


优化目标:
线性回归:均方误差(绝对值误差不好求导,不平滑)
。合理性 + 易解性。
感知机:二分类模型:离散点不好求导。错误点的个数。
逻辑回归:似然误差:均方误差不是凸函数,均方误差表示真实值和概率值之间的误差平方,比较的数据维度不同。交叉熵。


最大似然(贝叶斯):
如果一个规律,最大可能产生该观测结果,这个规律最可能是真的。
预测数据为真的概率 = 数据的先验概率 * 假设空间中数据的概率




均方误差:观测误差是正态分布下的最优假设。


优化目标决定了产出结果。合理的优化目标确保得到所求的模型。




寻解算法:
线性回归:公式解。(微分求导+线性代数矩阵求逆乘积,使理解现实世界变得简单)
1、连续
2、凸函数(无局部极值点)
3、合适(输入误差和输出误差都相对稳定。不适用蝴蝶效应,股票系统,输出难以预计)






微分求导后是不可逆函数:
梯度下降:
1、凸函数
2、方向+步长,实验预估步长
3、特征放缩,尺度一致
4、根据梯度方向决定步长




感知机:PLA,离散误差:
1、不连续,不能求导
2、错误的数据点离分类界面的距离平方之和,是连续的,步长为1。只考虑错误点的误差。
3、迭代一定次数后退出


随机梯度下降:
1、每轮迭代,以部分的样本计算梯度
2、加速训练过程
3、接近最优解时,梯度来回波动




前提;真实的关系或分类界面是线性的。
回归:输出和输入之间的关系是线性的。
分类:分类界面是线性的。
为什么是线性关系:
1、现实中普遍存在“类线性关系”
2、数据分析的手段:各个特征对预测值的影响一目了然。
3、非线性关系可以转化为线性。
4、样本数据有限,模型不能太复杂。
5、易求解,凸函数,梯度下降。






数据 - 模型 - 业务 - 需求


































































































































圈定范围,假设空间。


1、假設/模型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值