小闹钟的机器学习笔记(6)

本次学习内容为cs229第六节

朴素贝叶斯算法回顾

朴素贝叶斯是一个生成学习算法,这意味着这个算法是对着P(x|y)建模。
在检测垃圾邮件的算法中:

这里写图片描述

在这个模型中,所有特征的取值只能为0或1。
针对这个算法有两种变化:

1. x可以取k个值而非仅两个值。

在构建的模型P(x|y)中,x不再是个伯努利分布,而是多项式分布。一个常见的情况是讲一个要取连续值的特征变成取离散的多个值。比如房屋定价问题中的面积特征,本该是连续的但是被分为了多段。

2. 记录单词出现的次数。

在朴素贝叶斯中用0或1表示对应词语是否出现,但没有表示词语出现的次数。因此要使用一种不同的将电子邮件描述成特征向量的模型,称为多项式事件模型。
给定一个邮件,将其描述中一个特征向量,所以第i个训练样本会是一个特征向量。

这里写图片描述

ni相当于邮件中词的数量,比如说邮件中有300个词,那它就被表示成包含300个元素的特征向量。特征向量中每个元素在对应判断是否为某个单词的判别向量。
在这种情况下我们生成的模型是:

这里写图片描述

这个模型包含的参数有:

这里写图片描述

它表示某人向你发送垃圾邮件时,邮件中下一个词为k的概率。相似的,还有另一个参数。

这里写图片描述

给出一个训练集合,可以求出这些参数的极大似然估计:

这里写图片描述

分子中前半部分表示垃圾邮件的个数,后半部分表示垃圾邮件中k出现在邮件中的次数,实际上分子部分表示的就是对所有的垃圾邮件中k出现的次数进行求和。
分母的含义是对训练样本进行求和,如果其中一个邮件是垃圾邮件则把它的长度加起来,换句话说,分母表示所有垃圾邮件的总长。
这个比值的含义就是在所有垃圾邮件中词k占的比例。

考虑到Laplace平滑,可以在分子+1,分母+50000。(50000是上节中定义的词典中单词的数目)

多元伯努利时间模型???

非线性分类

有时数据无法被一条直线分开,所以需要寻找非直线的分类。

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。

假设输入包括x1,x2,x3,x4,它们经过第一个sigmoid单元,在第一层给出三个输出结果,然后这三个结果经过第二个sigmoid单元,得到最终的输出。
第一层的输出结果为分别表示为a1,a2,a3:

这里写图片描述

这里的g是sigmoid函数。最终输出结果为:

这里写图片描述

损失函数表示为:

这里写图片描述

可以使用梯度下降算法对网络中的参数进行修正,梯度下降在神经网络中的应用称为反向传播。

函数间隔与几何间隔

1. 函数间隔

一个超平面(w,b)和某个特定的训练样本(x(i),y(i))的函数间隔,被定义为:

这里写图片描述

对于这个式子的解释:
如果y(i)=1,想要函数间隔取得较大的值,则wTx(i)+b>>0。
如果y(i)=-1,想要函数间隔取得较大的值,则wTx(i)+b<<0。
如果函数距离大于0,则意味着我们分类正确。
超平面(w,b)关于训练数据集的函数间隔为超平面同所有样本点的函数间隔的最小值。

2. 几何间隔

假设我们正确地对样本进行了分类,则几何间隔就是一个训练样本对应的点和超平面确定的分界线之间的几何距离。
给出几何间隔的计算过程。

这里写图片描述

x是超平面上距离训练样本最近的点,w/||w||是单位距离向量。
因为x在超平面上,所以它满足超平面函数。

这里写图片描述

对式子进行整理,即可以得到几何距离。

这里写图片描述

更一般的,我们将几何间隔定义为:

这里写图片描述

如果||w||=1,则函数间隔等于几何间隔。
几何间隔=函数间隔/||w||。
超平面(w,b)关于训练数据集的几何间隔为超平面同所有样本点的几何间隔的最小值。

最大间隔分类器被看成支持向量机的前身,它会选择特定的w和b使得间隔最大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值