COMP 9417 T2_2021 Lesson 3

判断模型是否合适:
如果分割完后正好是一半正的一半副的,就表示是个很好的模型。
如果一个数据点为离群值,同时也意味着它对应的残差具有较大的方差,因此数据中的离群值数量较多的话,残差一般也会出现明显的异方差性。
残差应显示近似对称的钟形频率分布,平均值为0

一些非线性关系可以通过转换来变成线性模型。作业1a。

如果模型过于复杂,我们可以考虑简化模型。

  1. 通过子集来估计整体。会产生多个模型,需要做选择。
  2. 正则将不重要的系数归零或者接近0。
  3. 降维。

对于第一种方法:
在得到很多子特征集之后。都是greedy的
前向选择:该过程从一个空的特性集合开始,并逐个添加最优特征到集合中。
向后消除:该过程从所有特征集开始。通过逐步删除集合中剩余的最差特征。
这些Greedy的选择方式其实就是在计算R^ 2。决定系数 coefficient of determination。用于度量因变量的变异中可由自变量解释部分所占的比例,以此来判断回归模型的解释力。也就来逐个的判断每个子模型的影响力,解释力度,特征强度。就是通过删除或者添加来对比。

一两个数据的变化不会对mean X和mean Y造成很大影响,只会稍微改变slope

模型只能在与收集数据时保持的条件大致相同的条件下工作
在这里插入图片描述

线性回归总结以及线性模型应用场景:
在这里插入图片描述




Chapter 2 机器学习处理分类问题

Pg: 1-24

之前的回归问题中我们提到:回归

回归问题是当输出变量是实数或连续值时,例如“工资”或“权重”。 可以使用许多不同的模型,最简单的是线性回归。 它试图使数据适合通过这些点的最佳超平面。

那么现在我们学分类算法分类
分类问题是当输出变量是类别时,例如“红色”或“蓝色”或“疾病”和“没有疾病”。 分类模型试图从观测值得出一些结论。 给定一个或多个输入,分类模型将尝试预测一个或多个结果的价值。
例如,当过滤电子邮件为“垃圾邮件”或“非垃圾邮件”时,在查看交易数据时为“欺诈性”或“授权”。 简而言之,分类要么预测分类类别标签,要么根据训练集和分类属性中的值(分类标签)对数据分类(构建模型),并将其用于分类新数据。 有许多分类模型。 分类模型包括逻辑回归,决策树,随机森林,梯度提升树,多层感知器,朴素贝叶斯。

教授的例子,两个测试系统,4个邮件,区分spam或者ham:
第一个邮件都检测对了
第二个邮件两个系统都没对
第三个邮件第一个系统对了第二个错了
第三个邮件第二个系统对了第一个错了
在这里插入图片描述
最后得到1 是Spam。
**t是分界红线**

齐次坐标:
简而言之,齐次坐标就是用N+1维来代表N维坐标

我们可以在一个2D笛卡尔坐标末尾加上一个额外的变量w来形成2D齐次坐标,因此,一个点(X,Y)在齐次坐标里面变成了(x,y,w),并且有 X = x/w Y = y/w
在这里插入图片描述

贝叶斯分类:
您可能有兴趣找出酒精中毒患者患肝病的可能性。 “酗酒”是对肝病的测试(有点像石蕊测试)。

A可能表示事件“患者患有肝病”。 过去的数据告诉您,进入诊所的患者中有10%患有肝病。 P(A)= 0.10。

B可能意味着石蕊试纸,即“患者是酒鬼”。 诊所的病人中有5%为酗酒者。 P(B)= 0.05。

您可能还知道,在那些被诊断出患有肝病的患者中,有7%为酗酒者。

这就是您的B | A:考虑到患者患有肝病,酒精中毒的机率是7%。

贝叶斯定理告诉您:

P(A | B)=(0.07 * 0.1)/0.05 = 0.14

换句话说,如果患者是酒鬼,则他们患肝病的机会为0.14(14%)。 与过去的数据所建议的10%相比,这是一个很大的增长。 但是,任何特定的患者仍然不太可能患有肝病。

看定理的另一种方式是说一个事件紧随另一个事件。上面我说过“测试”和“事件”,但是将其视为导致“第二事件”的“第一事件”也是合理的。没有一种正确的方法:使用对您最有意义的术语。


在特定的疼痛诊所中,有10%的患者开了麻醉止痛药。
总体而言,诊所的患者中有5%的人沉迷于麻醉品(包括止痛药和非法药物)。
在所有人开的止痛药中,有8%是瘾君子。

如果患者是瘾君子,他们将被开处方止痛药的可能性是多少?

步骤1:从问题中找出事件“ A”是什么。首先发生的事件(A)正在服用止痛药。这是10%。

步骤2:从问题中找出事件“ B”是什么。事件B正在上瘾。这是5%。

步骤3:弄清楚事件B(步骤2)对于事件A(步骤1)的概率。换句话说,找出(B | A)是什么。我们想知道“给人们开处方止痛药,他们上瘾的可能性是多少?”在问题中给出为8%,即0.8。

步骤4:将步骤1、2和3中的答案插入公式并求解。
P(A | B)= P(B | A)* P(A)/ P(B)=(0.08 * 0.1)/0.05 = 0.16

吸毒者开处方止痛药的可能性为0.16(16%)。


一些定义:
任务是通过模型来解决的,而学习问题和训练过程是通过产生模型的学习算法来解决的。

机器学习关注的是使用正确的特性来构建正确的模型,以实现正确的任务。

模型使机器学习具有多样性,但任务和特征使其具有统一性。

算法是否要求在开始学习之前所有的训练数据都存在?
如果是,则归类为批学习算法。
如果它能继续学习一个新的数据到达,那就是一个在线学习算法。

如果模型具有固定数量的参数,则将其归类为参数化。(逻辑回归,线性成分分析, 感知机)
否则,如果参数数量随训练数据量的增加而增加,则将其归类为非参数。(神经网络)
对于目标函数形式不作过多的假设的算法称为非参数机器学习算法。通过不做假设,算法可以自由的从训练数据中学习任意形式的函数。


线性分类器
在这里插入图片描述
P点是Mean of Positive
N点是Mean of Negative
w就是(P+N)/2分割线上的点

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值