COMP9417 T2_2021
文章平均质量分 88
UNSW COPM9417 T2_2021
你今天机器学习了么
这个作者很懒,什么都没留下…
展开
-
COMP 9417 T2_2021 Lesson 8
贝叶斯: numeric attributes决策树优点某种形式的树可能仍然是最流行的data mining易于理解易于实施易于使用可以分类可以回归,可用于大数据的处理。例子例子在N中需要多少个M来分类,N个特征,thresold function判断三个var里面T两个树真值表的重新表示,将有2^d叶子。通过考虑具有相同Y值的一行或多行之间的共同点,可以实现更紧凑的树但有些布尔函数可能无法实现紧凑树(例如奇偶函数和多数函数)一般来说,尽管原则上可以表原创 2021-06-27 11:31:56 · 508 阅读 · 0 评论 -
COMP 9417 T2_2021 Lesson 7
Pg 51-67朴素贝叶斯这是一种基于贝叶斯定理的分类技术,假设预测变量之间具有独立性。 简而言之,朴素贝叶斯分类器假定类中某个特定功能的存在与任何其他功能的存在无关。例如,如果水果是红色,圆形且直径约3英寸,则可以将其视为苹果。即使这些功能相互依赖或取决于其他功能的存在。所有这些属性都独立地导致这种水果是苹果的可能性,这就是为什么它被称为“朴素”的原因。例子优点:可以轻松快速地预测测试数据集的类别。在多类别预测中也表现出色。如果保持独立性假设,那么与其他模型(例如逻辑回归)相比,朴素贝叶原创 2021-06-27 07:24:19 · 326 阅读 · 0 评论 -
COMP 9417 T2_2021 Lesson 6
Pg1-54逻辑回归和感知机的区别主要是多了一个求概率,逻辑回归的损失函数由最大似然推导而来,使预测概率分布与真实概率分布接近。感知机的损失函数可能有多种方法,可能有多层感知机,但他们本质的思想都是使预测的结果与真实结果误差更小,是函数拟合,是去求得分类超平面。考虑这样一个场景:我们需要对癌症分类。如果我们使用线性回归来解决这个问题,就需要设置一个阈值,根据这个阈值可以进行分类。假设实际类别为恶性,但是预测值为0.4,阈值为0.5,则该数据点将被归类为非恶性,这将导致实时的严重后果。逻辑回归模型:原创 2021-06-20 13:05:20 · 351 阅读 · 0 评论 -
COMP 9417 T2_2021 Lesson5
Pg: 45-End由于下面要学KNN,素以教授先介绍了各种距离的测算方法并且之间的比较。k最近邻(KNN)算法是有监督的机器学习算法,可用于解决***分类和回归***问题。算法的具体方式后面会讲(按照老师PPT顺序来)。课中说了下面的距离公式不用会推导,但是要理解:Minkowski distance,曼哈顿距离,欧氏距离Minkowski distance其实不是描述两个点之间的距离,而是表示Distance metric。 两个n维变量a(x11,x12,…,x1n)与b(x21,原创 2021-06-15 12:27:34 · 332 阅读 · 0 评论 -
COMP 9417 T2_2021 Lesson 4
PG 25-45Inductive reasoning 多个前提(大多数时候都被认为是真的或被认为是真的)被组合起来以得到一个特定的结论。换言之,它指的是从具体的观察中得出概括。自下而上推理和因果推理也指归纳推理。Deductive arguments:侧重于从普遍现实推出特定的事件Inductive/Deductive不错的例子泛化能力:举个例子,高中生每天各种做题,五年高考三年模拟一遍遍的刷,为的什么,当然是想高考能有个好成绩。高考试题一般是新题,谁也没做过,平时的刷题就是为了掌握试题的规律,能原创 2021-06-13 10:01:53 · 309 阅读 · 0 评论 -
COMP 9417 T2_2021 Lesson 3
判断模型是否合适:如果分割完后正好是一半正的一半副的,就表示是个很好的模型。如果一个数据点为离群值,同时也意味着它对应的残差具有较大的方差,因此数据中的离群值数量较多的话,残差一般也会出现明显的异方差性。残差应显示近似对称的钟形频率分布,平均值为0一些非线性关系可以通过转换来变成线性模型。作业1a。如果模型过于复杂,我们可以考虑简化模型。通过子集来估计整体。会产生多个模型,需要做选择。正则将不重要的系数归零或者接近0。降维。对于第一种方法:在得到很多子特征集之后。都是greedy的原创 2021-06-08 16:06:05 · 517 阅读 · 1 评论 -
COMP 9417 T2_2021 Lesson 2
内容56-88PDF通过55页的图我们知道一元线性回归就是需要找到一条线性的直线来尽量的拟合数据点。那么b就是表示这条线的斜率。如果X是随便产生的数,那么我们就可以说b的变化是X变化导致Y的变化。如果b是0,那么X,Y没关系。如果b是实验数据不是随机产生的,那么Y的变化不仅仅是X的变化,还有导致X变化的原因。在线性回归中我们假设:Linearity 线性应变量和每个自变量都是线性关系。Indpendence 独立性对于所有的观测值,它们的误差项相互之间是独立的。Normality 正态性原创 2021-06-08 12:07:56 · 262 阅读 · 0 评论 -
COMP 9417 T2_2021 Lesson 1
Tutorial 链接:Lesson 1 提到的LR背景知识_OmarPPT Pg-1-56首先一些历史定义的基本了解:Trying to get programs to work in a reasonable way to predict stu.–R. Kohn (2015)一些定义:统计:通常是人类的数学模型。数据挖掘:通常是人类“洞察”的模型。监督学习:有监督的机器学习:大多数实际的机器学习都使用有监督的学习。 在监督学习中,具有输入变量(x)和输出变量(Y),并使用一种算法原创 2021-06-01 13:22:48 · 575 阅读 · 2 评论