![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
西檬饭
这个作者很懒,什么都没留下…
展开
-
决策树实战2-使用决策树预测隐形眼镜类型
这里是3.x版本的Python,对代码做了一些修改。 其中画图的函数直接使用的是原代码中的函数,也做了一些修改。from math import logfrom ch3.treePlotter import createPlotdef calShannonEntropy(dataset): """ 计算香浓熵 :param dataset: 输入数据集 ...原创 2018-08-23 22:13:16 · 760 阅读 · 0 评论 -
决策树实战1
决策树简介决策的构造1.决策树的流程(1)收集数据 (2)准备数据 比如下面的数据: 因为决策树只能处理数值型的数据,所以要准备特定的数据方法。 使用上面的数据表格中有两个特征和一个分类结果。可以像下面这样准备数据或者说构建特征向量。 [1,1,'Y'] [1,1,'Y'] [1,0,'N'] [0,1,'N'] [0,...原创 2018-08-23 21:03:27 · 138 阅读 · 0 评论 -
k-Nearest Neighbors 实战2 使用kNN算法改进约会网站的配对结果
本文《machine learning in action》学习笔记原创 2018-05-31 21:58:46 · 237 阅读 · 1 评论 -
k-Nearest Neighbors 实战1 简单的电影分类实例
本文《machine learning in action》学习笔记 想通过博客记录学习的点点滴滴,不让自己只是看起(书)来认真,也方便以后复习。chapter 2. Classifying with k Nearest Neighborsthe pros and cons of k-Nearest Neighbors:pro: high accuracy, insensit...原创 2018-05-31 10:36:39 · 473 阅读 · 0 评论 -
贝叶斯决策学习
想要下功夫系统的地学习贝叶斯决策,希望自己能够静下心来学习并通过博客记录自己学习的过程,方便以后复习或者回顾。前提: (1)熟悉Python的使用 (2)概率论和数理统计的知识参考用书: 浙大《概率论和数理统计》 李航《统计学习方法》 周志华《机器学习》 Kevin P. Murphy《Machine Learning A Probabilistic Perspective》 ...原创 2018-04-03 15:20:24 · 221 阅读 · 0 评论 -
EM算法及其在GMM中的求解 理论部分
下面文章写得很好很详细,不用看其他的。 斯坦福大学机器学习——EM算法求解高斯混合模型 https://blog.csdn.net/linkin1005/article/details/41212085原创 2018-06-10 21:29:01 · 237 阅读 · 0 评论 -
语音识别中的标注问题和嵌入式训练
什么是嵌入式训练(Embedded Training)?序列的标注问题机器学习的问题主要分为三类:分类问题,标注问题和回归问题 标注问题的输入是一个观测序列,输出是一个标记序列或者状态序列。标注问题的一个目标是训练一个模型,是他能够对观测序列给出标记序列和状态序列。 常用的统计学习方法: 隐马尔科夫莫慈宁宫,条件随机场。 在信息提取和自然语言处理中,标记问题是常见的基本问题。...原创 2018-06-08 15:52:25 · 2465 阅读 · 0 评论 -
Window下安装 hmmlearn 问题: Microsoft visual C++ 14.0 is required
(1) 问题描述: 安装Python包hmmlearn失败,遇到error: Microsoft visual C++ 14.0 is required. (2) 解决方法: 我查看了安装的软件, 难道这个不是要的?: 于是重新装了Microsoft Visual C++ 2017. 选择了通用安装。 查看control pannel/programs ...原创 2018-05-23 17:28:15 · 1165 阅读 · 0 评论 -
马尔科夫模型范例 英文版
IntroductionOften we are interested in finding patterns which appear over a space of time. These patterns occur in many areas; the pattern of commands someone uses ...转载 2018-03-14 12:11:43 · 498 阅读 · 0 评论 -
几种不同程序语言的HMM工具包
“纸上得来终觉浅,绝知此事要躬行”,在继续翻译《HMM学习最佳范例》之前,这里先补充几个不同程序语言实现的HMM版本,主要参考了维基百科。读者有兴趣的话可以研究一下代码,这样对于HMM的学习会深刻很多!C语言版: 1、 HTK(Hidden Markov Model Toolkit): HTK是英国剑桥大学开发的一套基于C语言的隐马尔科夫模型工具箱,主要应用于语音识别、语音合成的研究,...转载 2018-03-13 15:48:33 · 936 阅读 · 0 评论 -
HMM学习 viterbi算法2
维特比算法维特比算法的形式化定义维特比算法可以形式化的概括为: 对于每一个i,i = 1,… ,n,令:Xi=(Xi1,Xi2,Xi3,Xi4...,XiT)Xi=(Xi1,Xi2,Xi3,Xi4...,XiT)X_i = (X_{i1},X_{i2},X_{i3},X_{i4}...,X_{iT}). 这一步是通过隐藏状态的初始概率和相应的观察概率之积计算了t=1时刻的局部概率。...转载 2018-03-13 15:36:04 · 244 阅读 · 0 评论 -
HMM学习 viterbi算法1
维特比算法(Viterbi Algorithm)寻找最可能的隐藏状态序列(Finding most probable sequence of hidden states)。 对于一个特殊的隐马尔科夫模型(HMM)及一个相应的观察序列,我们常常希望能找到生成此序列最可能的隐藏状态序列。穷举搜索 我们使用下面这张网格图片来形象化的说明隐藏状态和观察状态之间的关系: ...转载 2018-03-13 14:58:40 · 312 阅读 · 0 评论 -
HMM 学习三
1、定义(Definition of a hidden Markov model) 一个隐马尔科夫模型是一个三元组(pi, A, B)。 PI:初始化概率向量; A:状态转移矩阵; B:混淆矩阵; 在状态转移矩阵及混淆矩阵中的每一个概率都是时间无关的——也就是说,当系统演化时这些矩阵并不随时间改变。实际上,这是马尔科夫模型关于真实世界最不现实的一个假设。2、应用(...转载 2018-03-13 12:15:50 · 331 阅读 · 0 评论 -
HMM 学习二
1、马尔科夫过程的局限性 在某些情况下,我们希望找到的模式用马尔科夫过程描述还显得不充分。回顾一下天气那个例子,一个隐士也许不能够直接获取到天气的观察情况,但是他有一些水藻。民间传说告诉我们水藻的状态与天气状态有一定的概率关系——天气和水藻的状态是紧密相关的。在这个例子中我们有两组状态,观察的状态(水藻的状态)和隐藏的状态(天气的状态)。我们希望为隐士设计一种算法,在不能够直接观察天气的情况...转载 2018-03-13 12:10:12 · 223 阅读 · 0 评论 -
HMM 学习一
一、介绍(Introduction) 我们通常都习惯寻找一个事物在一段时间里的变化模式(规律)。这些模式发生在很多领域,比如计算机中的指令序列,句子中的词语顺序和口语单词中的音素序列等等,事实上任何领域中的一系列事件都有可能产生有用的模式。 考虑一个简单的例子,有人试图通过一片海藻推断天气——民间传说告诉我们‘湿透的’海藻意味着潮湿阴雨,而‘干燥的’海藻则意味着阳光灿烂。如果它处于一个...转载 2018-03-13 12:01:05 · 193 阅读 · 0 评论 -
GMM模型
高斯分布 参考这里: https://en.wikipedia.org/wiki/Normal_distribution极大似然估计 参考这里: https://blog.csdn.net/qq_23869697/article/details/79774206GMM分布高斯混合分布是假设总体的分布有多个不同的高斯分布混合而成,其中每一个高斯分布所占的...原创 2018-06-11 08:41:41 · 4442 阅读 · 0 评论 -
k-means 聚类算法
《机器学习》周志华 k均值算法学习笔记聚类无监督学习中的研究最多的应用最广的算法。 通过对无标记训练样本的学习来获得数据内在的规律。簇“聚类将能够像数据集中的样本划分为通常不相交的子集,每一个子集称为簇。”——《机器学习》周志华性能度量我们希望“物以类聚”,同一簇的样本尽可能相似,不同簇的样本尽量不同。性能度量就是评估聚类结果的好坏。 聚类的性能度量的两个指...原创 2018-02-09 15:48:38 · 573 阅读 · 0 评论 -
支持向量机
《机器学习》周志华 读书笔记1. 间隔与支持向量给定样本集,在样本空间中找到一超平面将不同的类别的数据划分开。我们希望能够找到两类样本“正中间”的那个超平面。因为那个超平民啊的容忍度最好,鲁棒性最好。 超平面方程可使用下面的线性方程来描述: wTx+b=0wTx+b=0w^Tx + b =0w=(w1;w2;w3;..;wd)w=(w1;w2;w3;..;wd)w=(w_1;w_2;w...原创 2018-09-02 15:38:33 · 159 阅读 · 0 评论 -
支持向量机 数学推导 part3
上一篇文末介绍了一个词,二元性(Duality),那么什么是二元性?二元性In mathematical optimization theory, duality means that optimization problems may be viewed from either of two perspectives, the primal problem or the dual p...翻译 2018-03-21 09:45:44 · 355 阅读 · 0 评论 -
支持向量机 数学推导 Part2
这是支持向量机数学推导的第五部分,这里讲的是凸函数。先回顾一下问题,如何求全局的最小值? 前面的讨论我们说可以把每一个极值点求出来再一个个对比,取最小的那个就是最小值。 另外的一个方法就是学习我们想要最小化的函数是怎样的函数。如果一个函数是凸函数,那么我们就能确定局部最小值就是全局的最小值。凸函数(Convex functions)如果能够在函数中找到两点画一条直线,这条直线不...翻译 2018-03-19 11:37:22 · 521 阅读 · 0 评论 -
支持向量机 数学推导 Part1
支持向量机的目的是什么?支持向量机的目标是找到使训练数据的边缘最大化的最优分离超平面。 支持向量机需要训练数据,是一种监督学习算法。 支持向量机也是一种分类方法。 举个简单的例子: 我们根据身高和体重在图1中画出点,可以通过这些点区分男女。给出一个点,能不能判断男女。 比如size=180,weight = 75,那么这个点代表的人是男还是女? 什么是分离超平面?回答上...翻译 2018-02-02 20:45:02 · 575 阅读 · 1 评论 -
EM算法在GMM中的应用笔记
(1)人人都懂EM算法(2)详解EM算法与混合高斯模型(Gaussian mixture model, GMM)第一篇通俗易懂地从极大似然估计层层深入聊到了EM算法。在假定样本分布的情况下,我们通过有限的样本去估计这个假定分布的最佳的参数,这就是极大似然估计。使用极大似然估计的前提是分布是通过假定的(即已经确定的)。另外样本是独立的,所有样本的联合分布(即假定分布)可以由每个样本概率乘积得...原创 2020-02-29 20:13:54 · 271 阅读 · 0 评论 -
问题4 生成模型和判别模型不同点?
已知输入变量x,判别模型(discriminative model)通过求解条件概率分布P(y|x)或者直接计算y的值来预测y。 生成模型(generative model)通过对观测值和标注数据计算联合概率分布P(x,y)来达到判定估算y的目的。判别模型不需要计算数据的联合分布,只需要求解条件概率,而生成模型是在计算数据的联合分布之后,使用联合分布去求概率。 判别模型:考虑的是一个分...原创 2018-07-28 14:03:26 · 161 阅读 · 0 评论 -
问题3 机器学习 为什么logistics regression是一种分类学习方法?
1. 什么是回归?线性回归线性回归是是最好理解的线性模型,它试图使用线性模型去尽可能准确地预测实值输出标记。 比如使用一个线性方程去拟合一些点。线性回归的分类(1) 直接线性回归,即使用线性模型是拟合实际值yyy (2) 对数线性回归,即用线性模型去拟合lnylnylny,yyy是实际输出 (3) logistics 回归(逻辑回归,对数几率回归), 使用线性模型拟合 l...原创 2018-06-08 21:59:50 · 722 阅读 · 0 评论 -
问题2 机器学习篇 正则化L1和L2有什么区别?
问题:正则化L1和L2有什么区别?先要知道什么是正则化,再谈他们的区别。后面引用区《机器学习损失函数、L1-L2正则化的前世今生》很值得看。答: 1)什么是正则化 在机器学习中,L1和L2被称为正则化。 他们在其他学科中的叫法不一样,在统计学中称为罚项,数学中对应的是范数,本质是相同的。2)距离度量 最常用的是闵可夫斯基距离(Minkowski distance) distm...原创 2018-06-06 21:49:30 · 885 阅读 · 0 评论 -
问题1 机器学习篇 如何解决过拟合(overfiting)?
向自己提问题是一个很好的学习方式。问题: 如何解决过拟合(overfiting)?在解决这个问题之前先明确问题是什么.这涉及到另外一些问题,什么是过拟合?过拟合与什么因素有关?等等答:1)直观理解过拟合 先说说经验误差,学习器在训练集上的预测值和真实值之间的差异称为经验误差。我们希望经验误差越小越好,但是当经验误差太小,以至于精确度约为100%时,我们就怀疑这个模型出现了过拟...原创 2018-06-05 22:19:18 · 1088 阅读 · 0 评论 -
机器学习面笔试-LR篇
1.lr loss funtion 推导2.lr里面公式为什么用e?广义线性模型的角度分析3.L1-norm和L2-norm其实稀疏的根本还是在于L0-norm也就是直接统计参数不为0的个数作为规则项,但实际上却不好执行于是引入了L1-norm;而L1norm本质上是假设参数先验是服从Laplace分布的,而L2-norm是假设参数先验为Gaussian分布,我们在网上看到...原创 2018-08-28 16:51:22 · 4923 阅读 · 0 评论 -
机器学习面笔试-神经网络篇
1.为什么引入非线性激励函数?因为如果不用非线性激励函数,每一层都是上一层的线性函数,无论神经网络多少层,输出都是输入的线性组合,与只有一个隐藏层效果一样。相当于多层感知机了。所以引入非线性激励函数,深层网络就变得有意义了,可以逼近任意函数。2.常用的激励函数1)sigmoid:将输出实值压缩到0-1之间。 缺点:(输入非常大或非常小的时候)容易梯度消失;sigmoid函数是非0均...原创 2018-08-28 16:48:11 · 707 阅读 · 0 评论 -
机器学习面笔试-数据篇
1. 数据的预处理方法有哪些?常用的有白化,去均值,归一化和PCA。 可参考这里。2.数据的归一化方法有哪些?常用的归一化方法:线性归一化和0均值标准化 线性归一化将数据转换到[0,1]之间: Xnorm=X−XminXmax−XminXnorm=X−XminXmax−XminX_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}...原创 2018-08-28 16:39:41 · 161 阅读 · 0 评论 -
机器学习面笔试-深度学习篇
1.池化的作用是什么?(1) invariance(不变性),这种不变性包括translation(平移),rotation(旋转),scale(尺度) (2) 保留主要的特征同时减少参数(降维,效果类似PCA)和计算量,防止过拟合,提高模型泛化能力2.神经网络的损失函数为什么是非凸的?主要思路是,任意的凸函数的最优点是唯一的. 假设一个最优点A后,如果总能找到另一点B,使AB...原创 2018-08-28 16:09:04 · 874 阅读 · 0 评论 -
机器学习面笔试-SVM篇
1.SVM的基本思想:间隔最大化来得到最优分离超平面。方法是将这个问题形式化为一个凸二次规划问题,还可以等价位一个正则化的合页损失最小化问题。SVM又有硬间隔最大化和软间隔SVM两种。这时首先要考虑的是如何定义间隔,这就引出了函数间隔和几何间隔的概念(这里只说思路),我们选择了几何间隔作为距离评定标准(为什么要这样,怎么求出来的要知道),我们希望能够最大化与超平面之间的几何间隔x,同时要求所有...原创 2018-08-28 15:43:34 · 709 阅读 · 0 评论 -
机器学习面笔试-决策树篇
1. 决策树怎么做回归让所有节点求平均值。2. 熵、联合熵、条件熵、交叉熵、KL散度(相对熵),信息增益,互信息,信息增益率的计算简介: 熵用于衡量不确定性,所以均分的时候熵最大 KL散度用于度量两个分布的不相似性,KL(p||q)等于交叉熵H(p,q)-熵H(p)。交叉熵可以看成是用q编码P所需的bit数,减去p本身需要的bit数,KL散度相当于用q编码p需要的额外bits。...原创 2018-08-28 15:41:51 · 678 阅读 · 0 评论 -
机器学习面笔试-模型评估篇
1.衡量分类器的好坏(1)常用的指标: 精度precision = TP/(TP+FP) = TP/~P (~p为预测为真的数量) 召回率 recall = TP/(TP+FN) = TP/ P (2)F1 score F1值: 2/F1 = 1/recall + 1/precision (3)ROC和AUC2. P-R图P-R图,即以查全率做横轴,查准率做纵轴的平面...原创 2018-08-28 15:39:24 · 429 阅读 · 0 评论 -
机器学习面笔试-模型优化篇
1.二阶收敛为什么比一阶收敛更快?一阶收敛是以1/n的速度收敛,二阶收敛是以1/(n^2)的速度收敛,所以速度比较快。 附:最优化问题中,牛顿法为什么比梯度下降法求解需要的迭代次数更少? 直观上的理解:梯度下降法,确定了一个方向(负梯度方向),迭代点沿着这个方向走 能够使得目标函数的值下降,具体走多大步还需要通过设置迭代步长。而牛顿法则是在某一个初始点处用二阶泰勒展开去近似原目标函数,...原创 2018-08-28 15:38:29 · 246 阅读 · 0 评论 -
机器学习面笔试-特征篇
1. 为什么要做特征选择?特征选择主要有两个功能: (1)减少特征数量、降维,使模型泛化能力更强,减少过拟合 (2)增强对特征和特征值之间的理解2. 常用的特征选择方法[这里](1)去掉取值变化小的特征针对特征值都是离散型变量;(2)单变量特征选择单变量特征选择能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问...原创 2018-08-28 15:37:16 · 487 阅读 · 0 评论 -
机器学习笔试题一
1.输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小是多少?分析: (1) 只经过一层卷积和时尺寸改变:n−f+1n−f+1n-f+...原创 2018-08-05 21:45:24 · 1545 阅读 · 0 评论 -
数据的标准化
引入评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。所谓多指标综合评价方法,就是把描述评价...转载 2018-07-30 16:47:50 · 460 阅读 · 0 评论 -
机器学习中的一些信息论的概念简介
机器学习和深度学习中常用信息论中的一些概念。 这里只做目录简介,具体的内容参考原文:信息量联合熵条件熵相对熵互信息信息增益 Information Gain信息增益率 Information Gain ratio 出自:远方的橄榄树 原文链接 https://blog.csdn.net/light_lj/article/details/52208838...原创 2018-06-28 21:36:51 · 552 阅读 · 0 评论 -
GBDT与RF的区别
转自 GBDT与RF的区别 https://blog.csdn.net/u010398493/article/details/77587749简单的说:首先,GBDT和RF都是集成方法中的经典模型,我们需要弄清楚下面几个问题:1、GBDT是采用boosing方法,RF采用的是baggging方法2、bias和variance是解释模型泛化性能的,其实还有噪声然后,理解GBDT和RF...转载 2018-09-20 23:45:07 · 980 阅读 · 0 评论 -
sklearn PCA降维
特征表示训练集 n x 64, n表示样本个数,64表示特征个数使用PCA将64维特征降维2维:代码实现from sklearn.decomposition import PCAfrom matplotlib import pyplot as pltimport pandas as pdimport numpy as npdigits_train = pd.read_csv('...转载 2019-01-10 21:57:33 · 992 阅读 · 0 评论