李宏毅DL笔记

李宏毅深度学习笔记

机器学习就是自动找函式

GEN generate(生成)

产生有结构的复杂东西(例如:文句、图片)

supervised Learning

提供给机器有labels的资料进行学习函式,机器根据labels评价函式的好坏。评价的方式就是损失函式loss。机器会根据演算法自动找出Loss最低的函式。

supervision VS Reinforcement

supervision
以棋盘为例,给机器一个input告诉说理想的正确的输出是啥。围棋里面的input就是告诉机器现在盘势是这样的黑子白子摆成这样,下一步最应该落子的位置在哪里。
Reinforcement
让机器和自己下或者机器和某个人下,下的下的赢了。赢l他会知道应该是有几步下得不错,但是不会有人告诉机器哪几步下得不错;输了他会知道应该是有几步下的不好,但是没人告诉机器哪几步下的不好。机器要想办法自己找出一些策略,自己想办法精进自己,自己想办法提高正确率。
这里的输或赢这件事情就是Reinforcement,也就是Reinforcement引导机器学习的方向。

UNsupervision

unsupervision对于unlabels的数据能让机器学到什么

机器怎么找出你想要的函式

给定函式寻找的范围
Network Architecture其实就是给机器一个搜寻的范围,定义的就是一个函式搜寻的范围。RNN、CNN

前沿的研究

Explainable Al影像辨识
Adversarial Attack
Network Compression
Anomaly Detection如何让机器学会不知道
Transfer Learning(Domain Adversarial Learning)
Meta Learning机器自己发明演算法,机器学会学习,能不能不靠勤奋让机器聪明点呢?
Life-long learning

Loss function

input : a function, output : how bad it is
在这里插入图片描述
在这里插入图片描述
Loss就是evaluate function f,f 又取决于b和w,所有Loss就是evaluate many type parameters w and b的好坏.
其实Loss function可以凭借喜好自定义一个Loss function,常见的做法就是均方误差作为Loss function。

梯度下降gradient descent

gradient descent可以处理任何可微分的方程。不只是linear regress and logistic regress
可以用来找可能是比较好的function or parameters
但是gradient descent用在convex函数最好,convex没有 local optimal,只有一个global optimal。linear gradient is a convex。

正则化

linear regress中损失函数正则化,可以有效的避免过拟合问题。regularization会使parameters w all get smaller。所以正则化是使the functions with smaller w are better.
但是为什么正则化使parameter w全部变小会避免过拟合呢?
parameters w 变小了,会使损失函数更加的smooth,smooth function。parameters w 变小了,会对数据的差异变得不敏感。
so select λ obtaining the best model。

why smooth functions are preferred?

if some noises corrupt input xi when testing A smoother function has less influence.
we prefer smooth function, but donot be too smooth.

but why donot regularization consideration bias?

because bias cannot influence smooth degree of function。fune bias only can move curve。

ERROR ORIGIN

error due to bias or variance
A more complex model does not always lead to better performance on testing data.

bias and variance

Simpler model is less influenced by the sampled data

  • for bias ,redesign your model :
    • add more features as input
    • a more complex model
      因为可能target没有在你预测值里面,所以不管怎么训练原来的模型都不会减少bias
      bias 欠拟合
  • for variance
    • More data
      very effection,but not always practical
    • Regularization
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值