感知机中重点考虑的知识点以及某点到超平面距离公式的推导

感知机中要思考的点:(先思考再补充)

  1. 某点到超平面距离公式的推导
  2. 损失函数的由来,为什么不考虑前面的系数。
  3. 学习率的作用是什么。
  4. 随机梯度下降法
  5. 算法收敛性中的误分类次数k的不等式
  6. 对偶形式中Gram矩阵的含义

 

1、在感知机中,输入空间Rn中任一点到超平面S的距离为:

推导过程如下(转):

其中两个向量的点积的公式为这里写图片描述,因为该向量与超平面S平行,所以cosα=+1(or -1)。

2、损失函数的由来,为什么不考虑前面的系数。

这里有讨论到这个问题,但是没有看的很明白(结合SVM)

https://www.zhihu.com/question/36241719/answer/122476382

3、学习率的作用

\eta(0 < \eta \leq 1),学习率,又叫步长,在迭代过程中会控制模型的学习进度。在梯度下降法中,步长:梯度下降迭代过程中每一步沿负方向前进的长度。

步长选择:

  •  步长太大,会导致迭代过快,错过最优解;
  • 步长太小,迭代速度太慢,耗时间太长。

在梯度下降法中,都是给定的统一的学习率,整个优化过程中都以确定的步长进行更新, 在迭代优化的前期中,学习率较大,则前进的步长就会较长,这时便能以较快的速度进行梯度下降,而在迭代优化的后期,逐步减小学习率的值,减小步长,这样将有助于算法的收敛,更容易接近最优解。故而如何对学习率的更新成为了研究者的关注点。 ​

在模型优化中,常用到的几种学习率衰减方法有:分段常数衰减、多项式衰减、指数衰减、自然指数衰减、余弦衰减、线性余弦衰减、噪声线性余弦衰减。(转:https://blog.csdn.net/qq_35290785/article/details/89847734

 

 

 

  • 使用单层感知机可以表示与门,或门等,但不可以表示异或门(画图直观感受);
  • 使用2层感知机可以表示异或门(使用与非门,或门,与门实现,y = (~(x1 + x2)) (x1 + x2));
  • 单层感知机只能表示线性空间,而多层感知机可以表示非线性空间;
  • 感知机可以看成是简单的神经网络。

 

 

  • 9
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值