ML demo1

lecture2: Prediction and Classification

Perceptron Hypothesis Set 感知器假设集

对于日常事务,我们获取其数据,通过机器学习让机器能够获得预测,推理,建议,辨认等能力。

为此,应该将问题及知识符号化、形式化,使其变成机器能够储存和处理的形式。

?辨析f与g的关系:

f为理想情况下,输入x与输出y之间的关系

g为通过机器学习后,对于f的近似模拟

机器学习与数据挖掘

机器学习:通过对于数据的计算,得到近似目标f的假设g

数据挖掘:通过庞大的数据,得到有价值的规律及财富?

??问:对于数据而言,价值判断标准是什么?如何制定。
是抽象的数字概念还是能够具体反映于问题本身。

关系:

· 当数据挖掘中想得到的规律及价值对目标(关系)的近似,此时ML=DM(KDDCup)

· 如果其价值近似于关系近似,DM can help ML,and vice versa(反之亦然)

· 传统的数据分析也注重在大型数据库中高效的计算

在现实中,区分两者的边界并不清晰

Hyperplanes/linear classifiers 超平面及线性分类器

一、简单的假设集:感知器

??假设集:Hypothesis Set 更像是一种关系模式

首先学习的这种关系模式是感知器(Perceptron)。

给定用户的年龄,年收入,已工作年限及负债情况,来制定放贷策略。

将客户特征(features)记为向量x=( x 1 x_1 x1, x 2 x_2 x2,…, x d x_d xd),并赋权。根据该用户特征向量的权值组合与设定阈值大小关系,来判断是否放贷。

问:如何确定阈值,如何确定权重。

根据感知器假设,对于输出y来说,将给予放贷的个体记为+1,不予放贷的记为-1。

以下为感知器假设的处理:将阈值归设置为向量首元素,将结果函数用规整形式表达。
h ( x ) = sign ⁡ ( ( ∑ i = 1 d w i x i ) −  threshold  ) = sign ⁡ ( ( ∑ i = 1 d w i x i ) + ( −  threshold  ) ⏟ w 0 ⋅ ( + 1 ) ⏟ x 0 ) = sign ⁡ ( ∑ i = 0 d w i x i ) = sign ⁡ ( w T x ) \begin{aligned} h(\mathbf{x}) &=\operatorname{sign}\left(\left(\sum_{i=1}^d w_i x_i\right)-\text { threshold }\right) \\ &=\operatorname{sign}(\left(\sum_{i=1}^d w_i x_i\right)+\underbrace{(-\text { threshold })}_{w_0} \cdot \underbrace{(+1)}_{x_0}) \\ &=\operatorname{sign}\left(\sum_{i=0}^d w_i x_i\right) \\ &=\operatorname{sign}\left(\mathbf{w}^T \mathbf{x}\right) \end{aligned} h(x)=sign((i=1dwixi) threshold )=sign((i=1dwixi)+w0 ( threshold )x0 (+1))=sign(i=0dwixi)=sign(wTx)

二、感知器用于二元分类

此时的决策函数为二元平面的一条直线:
h ( x ) = sign ⁡ ( w 0 + w 1 x 1 + w 2 x 2 ) h(\mathbf{x})=\operatorname{sign}\left(w_0+w_1 x_1+w_2 x_2\right) h(x)=sign(w0+w1x1+w2x2)

感知器学习算法(PLA)

目的:

如何用感知器来检测垃圾邮件呢?
我们需要甄别哪些关键字应该在感知器中占有更大的权值。即对于检测垃圾邮件来说,哪些关键字可以让我们更倾向于去判定该邮件是垃圾邮件。

从所有可能的关系(模式中)选出适合问题的模式

我们想要得到更近似于标准关系的g,但在多数情况下,这是容易得到的。为此,我们有必要选定D(特定集合?特定范围?),使得在此条件下理想认为:
g ( x n ) = f ( x n ) = y n g\left(\mathbf{x}_n\right)=f\left(\mathbf{x}_n\right)=y_n g(xn)=f(xn)=yn

但在这个过程中,我们会面临H(所有关系集)的规模过大的问题。为此,我们从一些点(关系集,结果集)出发,并以“正确”准则在D上进行修正和迭代。(能否理解为是一个搜索的问题?以一定的规律和准则去搜索合适的解)( w 0 \mathbf{w}_0 w0可以表示初始集)

损失函数

用于定量描述预测关系与实际关系之间的差距(模型精确度的表示方式之一)。

此处的损失函数统计了模型值与实际值之间不同的个数,为一个离散值,其不可微。因此通过机器学习的方式,来找到使得损失函数最小的解空间(或最佳规划)。

思考:如果损失函数可微,常见情况的处理方法是什么。

接下来,我们讨论找到近似关系的具体方法:

  1. 每个感知器都存在一个决策边界,这里是划分二维平面的直线(方程);

  2. 感知器模型只适用于二分类

  3. 可以通过多感知器将数据划分为 2 S 2^S 2S簇。此条表明,多个二分类感知器可以实现多分类任务。(???具体实现)

一个例子

请添加图片描述
解释:

  1. 目的:找到当前样本的一个合理划分标准(能够将不同标签样本分开的直线)
  2. w 向量代表该直线的法向量之一,观测得到 w = [ w 1 , w 2 ] T = [ 0.5 , 0.5 ] w=[w1,w2]^T=[0.5,0.5] w=[w1,w2]T=[0.5,0.5]是一个合理的方向。为确定具体的直线方程,需要带入一个点,求解截距。

为从初始集进行迭代,我们需要确立迭代规则(确定迭代方向,判断迭代是否在靠近目标):

请添加图片描述
极端例子的做法是怎么样的?

而PLA算法就是一种折衷的规则:

请添加图片描述
找到错误样本并进行标记,通过???来更正错误。

一个例子

Some Remaining Issues of PLA

Discussion:感知器与贝叶斯线性分类器的比较

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值