线性回归-波士顿房价预测

这篇文章介绍用线性回归解决波士顿房价的预测问题,线性回归的原理部分参见线性回归博客。 一、了解数据 首先导入需要的包 import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn ...

2019-05-07 15:06:18

阅读数 21

评论数 0

高斯分布

高斯分布在整个机器学习中都频繁出现,比如,在一开始学习线性回归的时候,在涉及到他的概率解释的时候,假设噪声服从高斯分布。在高斯混合模型(GMM),高斯判别分析(LDA)等等中,都涉及到了高斯分布,所以这里结合CS229课程笔记和机器学习-白板推导(二)-数学基础来对高斯分布进行一个介绍。 一、一...

2019-04-26 10:41:23

阅读数 50

评论数 0

主成分分析【PCA】

一、背景 在讲PCA之间,我们先来讨论一下过拟合的问题。通常遇到过拟合,会有两种方式解决。增加训练的数据、正则化。在数据很难增加的情况下,我们一般采取正则化来避免过拟合。但除了正则化之外,我们也可以采取降维的方式来解决这个问题。下面是解决过拟合的方式。 为什么降维可以解决过拟合的问题? ...

2019-04-23 16:48:30

阅读数 28

评论数 0

K均值算法【K-means】

K均值算法是学习无监督学习的第一个算法,这个算法理解和实现都比较简单,算法的目的是将数据分成K组。 为了达到这个目的,算法首先随机初始化k个数据点(聚类中心),然后遍历所有数据,计算出每一个数据到k个点的距离,找到最小的距离,则该点属于这个类。之后计算每一组中的平均值,然后更新聚类中心,直到中心...

2019-04-21 08:53:02

阅读数 19

评论数 0

贝叶斯线性回归

一、贝叶斯线性回归框架 二、贝叶斯线性回归详细介绍 首先介绍Inference,求出后验概率。 下面是推断的部分:给定X,求出Y 万分感谢下面的参考资料,这个系列真的帮我理解了很多算法,建议大家看看。 参考资料:机器学习-白板推导系列-贝叶斯线性回归 ...

2019-03-29 10:36:21

阅读数 32

评论数 0

指数分布族

我们都知道logistic回归,softmax回归,线性回归,他们看上去不一样但是他们都属于广义线性模型【Generalized Linear Mode】。这篇博客就来介绍他们。要介绍广义线性模型前,首先介绍指数分布族。 一、指数分布族【The exponential family】 指数分布...

2019-03-28 09:17:48

阅读数 132

评论数 0

线性判别分析【LDA】

LDA线性判别的思想很简单,把训练集样本投影到一条直线上,使得同类样本的投影点尽可能近,不同类样本点的距离尽可能远。即类内小,类间大。 下面我们把类内小,类间大这种思想转化为数学表达式: 上面的式子不容易求解,需要对上面的式子做化简。 下面来求解J(W) 上面的方法可能理解...

2019-03-26 14:13:33

阅读数 24

评论数 0

高斯判别分析【GDA】

一、高斯判别模型 高斯判别属于生成模型的一种(明明是个生成模型,名字里面非得加个判别,还有logistic回归模型,明明是分类,名字里面非要加回归),生成模型就是要最大化后验概率,如下图所示: 下面是整个高斯判别模型的说明: 下面就是求解模型参数的过程: 二、高斯判...

2019-03-25 11:05:58

阅读数 46

评论数 0

线性回归

一、线性回归的一般形式 监督学习的主要任务是分类和回归,而线性回归是最简单的一种回归方式。 线性回归是要解决上面的问题,对于给定房子的面积如何来预测房子的价格。根据数据分布的特点,我们很自然的想到,如果能找到一条直线。这条直线在这些数据上表现好,那么它就能完成对于未知数据的预测。很自然我们...

2019-03-23 19:29:30

阅读数 44

评论数 0

隐马尔可夫模型【HMM】

隐马尔可夫模型属于生成模型,它在语音识别、自然语言处理、生物信息、模式识别领域有广泛的应用。隐马尔可夫模型可以用三句话概括,一个模型、两个假设、三个问题。解决了这些问题,隐马尔可夫模型也就掌握了。 一个模型 先引入一些有关HMM的符号: 观测变量符号为O,O1,O2,O3.....为观测序列...

2019-03-21 15:45:26

阅读数 31

评论数 0

支持向量积【SVM】

支持向量积根据数据的情况分为三种。如果数据是线性可分的,则用线性可分支持向量积。如果数据是近似线性可分的,则用线性支持向量积。如果数据是不可分的,则用非线性支持向量积。 线性可分支持向量积 线性可分的支持向量积的数据是线性可分,线性可分就是对于如下的数据,存在一个超平面能将数据完全分开。 ...

2019-03-16 16:33:26

阅读数 102

评论数 0

高斯混合模型推导【GMM】

一、前言 高斯混合模型是用EM算法来估计参数问题,因为直接进行极大似然估计无法求解参数问题。下面给出具体原因: 因为无法用对数极大似然估计法求得参数的解析解,所以引入了EM算法来进行求解。 二、E步 三、M步 M步主要用来确定参数的更新值 关于那两个的推导实在是太复杂了...

2019-03-15 10:10:40

阅读数 28

评论数 0

EM算法

一、EM算法推导需要用到的数学知识 1.1联合分布函数 对于联合分布函数需要掌握的就是,知道F(x,y)表示x和y的联合分布。 1.2条件分布函数 条件分布的定义如下图所示,对于条件分布需要了解的是下面两个式子: ...

2019-03-13 15:00:53

阅读数 40

评论数 0

logistic回归【逻辑斯蒂回归】

一、最大似然估计函数 对未知参数Θ进行估计的时候,在该参数可能的取值范围内选取,使样本获此观测值X1,X2,...Xn的概率最大值的参数值作为参数Θ的估计,这就是极大似然估计。下面是极大似然函数的定义。 求解极大似然函数的步骤 以二项分布为例,讲解极大似然估计 二、sigm...

2019-03-10 11:00:13

阅读数 55

评论数 0

朴素贝叶斯法

一、全概率公式与贝叶斯公式 下面是是全概率公式和贝叶斯公式的定义(张宇概率九讲) 贝叶斯定理是在事件已经发生后,反过来讨论事件在那个条件下发生的概率。下面以一个例题来讲解全概率公式和贝叶斯公式 二、朴素贝叶斯算法 朴素贝叶斯算法属于生成模型,需要对p(x|y)进行建模,如下图所示:...

2019-03-09 11:22:08

阅读数 55

评论数 0

AdaBoost

一、集成学习 AdaBoost是集成学习的一种。集成学习的目的是通过结合几个由给定的算法组成的模型,去提高单个模型的准确率。就是俗话说的三个臭皮匠顶一个诸葛亮的意思。对于多个简单的模型,集成学习有两种结合算法的方式,一种是平均的方式,例如Bagging方法,随机森林法。另一种是提升的方法,例如:...

2019-03-08 14:51:10

阅读数 61

评论数 0

决策树

通常决策树的学习分为3个步骤:特征选择、决策树的生成、决策树的剪枝。 一、特征选择 首先,看一组数据,是贷款申请样本数据表,年龄,有工作,有自己的房子,信贷情况为特征,类别为是否申请成功数据。摘自李航的统计机器学习。 决策树的本质是树,对应上面具体的问题,构建树的时候,选择年龄、有工作、...

2019-03-05 10:14:48

阅读数 70

评论数 0

K近邻法(KNN)

K近邻算法(k-nearest neighbor,KNN)是一种基本的分类和回归方法,KNN假定数据已经分好类,对于一个新的样本只需要计算和他最近的K个点,K个点中多数表明他是那个类,他就是那个类。 KNN没有和别的算法一样,要先训练,然后才能预测。这个算法可以直接预测该点的标记。只是在查找最近...

2019-02-28 09:38:34

阅读数 54

评论数 0

感知机-收敛性证明及代码实现

一、感知机原理 感知机是最简单的线性二分类模型,如果要处理的数据是线性可分的,则该模型能取得很好的效果,如果数据不是线性可分的,则该模型不能取得很好的效果。以二维平面为例,如果要分类的点,能被一条直线分开,直线的一侧是正类,直线的另一侧是负类,则说明数据是线性可分的。如果数据需要一个圆来分开则说...

2019-02-26 19:45:39

阅读数 95

评论数 0

AlphaGo姐妹篇AlphaFold

在AlphaGo成功之后,我以为DeepMind的下一步动作是进军游戏产业,制作一个能打败所有顶尖游戏选手的程序,毕竟这个能做出来也很拉风。但是,没想到他下一步的动作是AplhaFold,用来预测蛋白质的三维结构,运用人工智能技术来助力科学发现。 在Community Wide Experime...

2018-12-04 09:28:58

阅读数 1386

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭