COMP 9417 T2_2021 Lesson 3

最新推荐文章于 2024-07-06 19:05:11 发布

你今天机器学习了么

最新推荐文章于 2024-07-06 19:05:11 发布

阅读量513

点赞数 1

分类专栏： COMP9417 T2_2021 文章标签：机器学习

本文链接：https://blog.csdn.net/None_Pan/article/details/117698169

版权

COMP9417 T2_2021 专栏收录该内容

8 篇文章 2 订阅

订阅专栏

判断模型是否合适：
如果分割完后正好是一半正的一半副的，就表示是个很好的模型。
如果一个数据点为离群值，同时也意味着它对应的残差具有较大的方差，因此数据中的离群值数量较多的话，残差一般也会出现明显的异方差性。
残差应显示近似对称的钟形频率分布，平均值为0

一些非线性关系可以通过转换来变成线性模型。作业1a。

如果模型过于复杂，我们可以考虑简化模型。

通过子集来估计整体。会产生多个模型，需要做选择。
正则将不重要的系数归零或者接近0。
降维。

对于第一种方法：
在得到很多子特征集之后。都是greedy的
前向选择：该过程从一个空的特性集合开始，并逐个添加最优特征到集合中。
向后消除：该过程从所有特征集开始。通过逐步删除集合中剩余的最差特征。
这些Greedy的选择方式其实就是在计算R^ 2。决定系数 coefficient of determination。用于度量因变量的变异中可由自变量解释部分所占的比例，以此来判断回归模型的解释力。也就来逐个的判断每个子模型的影响力，解释力度，特征强度。就是通过删除或者添加来对比。

一两个数据的变化不会对mean X和mean Y造成很大影响，只会稍微改变slope

模型只能在与收集数据时保持的条件大致相同的条件下工作
在这里插入图片描述

线性回归总结以及线性模型应用场景：
在这里插入图片描述

Chapter 2 机器学习处理分类问题

Pg: 1-24

之前的回归问题中我们提到：回归

回归问题是当输出变量是实数或连续值时，例如“工资”或“权重”。可以使用许多不同的模型，最简单的是线性回归。它试图使数据适合通过这些点的最佳超平面。

那么现在我们学分类算法分类
分类问题是当输出变量是类别时，例如“红色”或“蓝色”或“疾病”和“没有疾病”。分类模型试图从观测值得出一些结论。给定一个或多个输入，分类模型将尝试预测一个或多个结果的价值。
例如，当过滤电子邮件为“垃圾邮件”或“非垃圾邮件”时，在查看交易数据时为“欺诈性”或“授权”。简而言之，分类要么预测分类类别标签，要么根据训练集和分类属性中的值（分类标签）对数据分类（构建模型），并将其用于分类新数据。有许多分类模型。分类模型包括逻辑回归，决策树，随机森林，梯度提升树，多层感知器，朴素贝叶斯。

教授的例子，两个测试系统，4个邮件，区分spam或者ham：
第一个邮件都检测对了
第二个邮件两个系统都没对
第三个邮件第一个系统对了第二个错了
第三个邮件第二个系统对了第一个错了
在这里插入图片描述
最后得到1 是Spam。
**t是分界红线**

齐次坐标：
简而言之，齐次坐标就是用N+1维来代表N维坐标

我们可以在一个2D笛卡尔坐标末尾加上一个额外的变量w来形成2D齐次坐标，因此，一个点(X,Y)在齐次坐标里面变成了（x,y,w），并且有 X = x/w Y = y/w
在这里插入图片描述

贝叶斯分类：
您可能有兴趣找出酒精中毒患者患肝病的可能性。 “酗酒”是对肝病的测试（有点像石蕊测试）。

A可能表示事件“患者患有肝病”。过去的数据告诉您，进入诊所的患者中有10％患有肝病。 P（A）= 0.10。

B可能意味着石蕊试纸，即“患者是酒鬼”。诊所的病人中有5％为酗酒者。 P（B）= 0.05。

您可能还知道，在那些被诊断出患有肝病的患者中，有7％为酗酒者。

这就是您的B | A：考虑到患者患有肝病，酒精中毒的机率是7％。

贝叶斯定理告诉您：

P（A | B）=（0.07 * 0.1）/0.05 = 0.14

换句话说，如果患者是酒鬼，则他们患肝病的机会为0.14（14％）。与过去的数据所建议的10％相比，这是一个很大的增长。但是，任何特定的患者仍然不太可能患有肝病。

看定理的另一种方式是说一个事件紧随另一个事件。上面我说过“测试”和“事件”，但是将其视为导致“第二事件”的“第一事件”也是合理的。没有一种正确的方法：使用对您最有意义的术语。

在特定的疼痛诊所中，有10％的患者开了麻醉止痛药。
总体而言，诊所的患者中有5％的人沉迷于麻醉品（包括止痛药和非法药物）。
在所有人开的止痛药中，有8％是瘾君子。

如果患者是瘾君子，他们将被开处方止痛药的可能性是多少？

步骤1：从问题中找出事件“ A”是什么。首先发生的事件（A）正在服用止痛药。这是10％。

步骤2：从问题中找出事件“ B”是什么。事件B正在上瘾。这是5％。

步骤3：弄清楚事件B（步骤2）对于事件A（步骤1）的概率。换句话说，找出（B | A）是什么。我们想知道“给人们开处方止痛药，他们上瘾的可能性是多少？”在问题中给出为8％，即0.8。

步骤4：将步骤1、2和3中的答案插入公式并求解。
P（A | B）= P（B | A）* P（A）/ P（B）=（0.08 * 0.1）/0.05 = 0.16

吸毒者开处方止痛药的可能性为0.16（16％）。

一些定义：
任务是通过模型来解决的，而学习问题和训练过程是通过产生模型的学习算法来解决的。

机器学习关注的是使用正确的特性来构建正确的模型，以实现正确的任务。

模型使机器学习具有多样性，但任务和特征使其具有统一性。

算法是否要求在开始学习之前所有的训练数据都存在？
如果是，则归类为批学习算法。
如果它能继续学习一个新的数据到达，那就是一个在线学习算法。

如果模型具有固定数量的参数，则将其归类为参数化。(逻辑回归,线性成分分析, 感知机)
否则，如果参数数量随训练数据量的增加而增加，则将其归类为非参数。(神经网络)
对于目标函数形式不作过多的假设的算法称为非参数机器学习算法。通过不做假设，算法可以自由的从训练数据中学习任意形式的函数。

线性分类器
在这里插入图片描述
P点是Mean of Positive
N点是Mean of Negative
w就是（P+N）/2分割线上的点

你今天机器学习了么

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
COMP 9417 T2_2021 Lesson 3

判断模型是否合适：如果分割完后正好是一半正的一半副的，就表示是个很好的模型。如果一个数据点为离群值，同时也意味着它对应的残差具有较大的方差，因此数据中的离群值数量较多的话，残差一般也会出现明显的异方差性。残差应显示近似对称的钟形频率分布，平均值为0一些非线性关系可以通过转换来变成线性模型。作业1a。如果模型过于复杂，我们可以考虑简化模型。通过子集来估计整体。会产生多个模型，需要做选择。正则将不重要的系数归零或者接近0。降维。对于第一种方法：在得到很多子特征集之后。都是greedy的
复制链接

扫一扫