Machine Learning
文章平均质量分 90
机器学习算法原理分析
CHAO_^
这个作者很懒,什么都没留下…
展开
-
范数
范数包括向量范数和矩阵范数,向量范数表示向量空间中向量的大小,矩阵范数表示矩阵引起变化的大小。 通俗地讲,向量范数表示向量空间中向量的大小,不同的范数度量向量大小的方式不同。1.L0范数 ||x|| 度量向量中非零元素的个数。2.L1范数 表示向量中非零元素绝对值之和。 3.L2范数 最常见的一种范数,例如向量到原点的距离。 4.Lp范数 由上述范数推广开来。原创 2016-12-08 21:41:00 · 574 阅读 · 0 评论 -
独立性检验
1.简介 独立性检验的目的是检测两个变量之间是否存在必然联系。 常识告诉我们,吸烟与患肺癌之间是存在一定联系的,但这是一个模糊的概念,如何用量化的方法,来说明吸烟与患肺癌之间是存在联系的,更精确地说,我们有多大的把握证明吸烟与患肺癌之间是存在联系的,这是独立性检验要做的事情。2.分析 通过上述列联表,可以得出概率统计数据: 通常人们在证明吸烟与患肺癌有关时,会利用上述数据,在吸烟原创 2016-10-25 23:09:11 · 11307 阅读 · 1 评论 -
不等概率采样
1.定义 如果总体中每个个体被选入样本的概率是不相等的,则称这种随机抽样的方式为不等概率抽样。 2.优点 这中不等概率抽样能提高抽样精度,减少样本不均衡造成的抽样误差。使用个体之间差异较大的场所。 3.实现 将总体中每个个体赋予不同的权重,权重大的个体被抽到的概率大,权重小的个体被抽到的概率小。 **4.有放回抽样 例:** 4.1 代码法 代码法是最直接的一种方法,也是最容易想到原创 2016-08-18 20:27:21 · 8403 阅读 · 1 评论 -
卡方距离
卡方距离用来衡量两个个体之间的差异性。原创 2016-07-13 15:45:39 · 5254 阅读 · 1 评论 -
TopK算法
问题描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10) 可以利用数据结构的最小堆来处理该问题。 最小堆如图所示,对于每个父节点的数值,一定小于或等于孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然根节点是其中的最小数值)。 每次有数据输入的时候可以先与根节点比较。 若小于或等于根节点,则舍弃; 若大于根节点,则原创 2016-06-08 15:55:01 · 644 阅读 · 0 评论 -
RANSAC随机抽样一致性
RANSAC算法(RANdom SAmple Consensus)随机抽样一致性,它可以从一组包含“局外点”的观测数据,通过迭代的方式训练最有的参数模型,不符合最有最优参数模型的被定义为“局外点”。例如一组离散的点,包含近似被直线通过的局内点,和远离直线的局外点,要从中找到最合适的2维直线,通常的方法采用的是最最小二乘法的直线拟合,但最小二乘法的原理是尽可能拟合所有的点,包括局内点和局外...原创 2020-03-31 17:20:14 · 334 阅读 · 0 评论 -
核函数
核函数简介根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”,采用核函数技术可以有效地解决这样问题。1.直接非线性映射线性回归:我们称该对象有n个属性(attribu...原创 2017-05-15 17:36:24 · 1018 阅读 · 0 评论 -
AutoEncoder(自动编码器)
自动编码器属于神经网络的一种,与传统的神经网络不同的是,自动编码器给定的是无标签数据,属于非监督学习算法。传统神经网络结构:自动编码的过程是一个自动寻找主要特征的过程,例如PCA,判定该特征是否能最有效的表示原输入的依据是,该特征通过解码得到的数据与原输入数据的误差尽可能的小。自动编码器结构:网络结构图:对每一级自动编码器的训练同样采用的是误差的反向传...原创 2017-04-16 18:03:22 · 673 阅读 · 0 评论 -
KNN算法
K-近邻分类算法KNNK近邻算法是最简单的分类器技术之一,它只存储所有训练样本数据,如果需要分类一个新的数据样本,只需要找到它的K个最相邻的点,然后统计哪个类在K近邻点中频率最高,然后把该点标记为出现频率最高的类。1.opencv测试代码<span style="font-size:14px;">#include <opencv2/opencv.hpp&...原创 2015-07-18 23:36:16 · 1154 阅读 · 0 评论 -
约束优化问题(拉格朗日乘子法求解)
无约束优化问题对于x的函数f(x),求解函数最小值:这种问题的求解很简单利用高中学过的知识就可以完成。等式约束优化问题对于x的函数f(x),求解函数最小值,同时满足条件h(x)=0:这种问题可以通过构造拉格朗日函数来求解。例如:最小值是上述方程组解的一个。在几何上表示,只有当f(x)的等高线与目标函数的曲线相切的时候,才可能得到可...原创 2017-05-12 15:35:16 · 18895 阅读 · 0 评论 -
主成份分析(PCA)
主成分分析的目的:特征降维1.为什么要进行特征降维? 直观上通常认为样本向量的维数越高,就了解样本更多方面的属性,应该对提高识别率有利,然而事实并非如此。 对于已知的样本数目,存在着一个特征数目的最大值,当实际使用的特征数目超过这个最大值时,分类器的性能不是得到改善而是退化。这种现象是模式是被中的“维度灾难”。 最好的一个例子是:一对双胞胎,其中一个额头上有痣,另外一个额头上没痣,那么区原创 2016-05-18 11:05:55 · 9732 阅读 · 4 评论 -
基于最小距离原则的简单聚类方法
基于最小距离原则的简单聚类方法简述:最直观的聚类方法,在很多简单场景下有效,聚类的结果取决于阈值T的选取。算法步骤:任意选择一个特征矢量作为第一个聚类中心,如。 计算下一个特征矢量到所有类别中心的距离,归为距离最近的那一类,并更新类别中心, 若所有距离都大于阈值T, 则另作一类。 重复步骤2直至完成所有分类。应用场景:霍夫直线检测结果的临近直线合并处理。...原创 2015-01-10 11:37:51 · 7669 阅读 · 2 评论 -
非极大值抑制
IOU(Intersection over union)交并比交并比是计算两个边界框交集合并集之比,用于衡量两个边界框的重叠程度,当IoU = 1时,两个边界框完美重叠。double getiou(cv::Rect rect_1, cv::Rect rect_2){ cv::Rect rect_i = rect_1 | rect_2; cv::Rect rect_u =...原创 2020-03-31 19:46:46 · 406 阅读 · 0 评论 -
半监督增量支持向量机
增量学习算法不舍弃样本的增量学习算法这种增量学习是最容易理解,不断在原有数据集上添加新的数据,虽然理论上可以,这样会引发训练数据的不断增长。需要消耗大的时间和空间。舍弃样本的增量学习算法由于SVM本身所具有的特性,一个数据的SV可以代替整个数据集。所以在每次增量学习过程中,只保留该次训练所得到的SV集,舍弃nSV集,并将上一次训练所得的SV集与新增样本一起作为下一次学习的训练...原创 2020-03-31 17:21:48 · 1025 阅读 · 0 评论 -
归一化互相关
图像匹配指在已知目标基准图的子图结合中,寻找与模板图像最为相似的子图,最简单常见的是基于灰度的匹配算法。基于灰度的模板匹配算法有很多种,包括MAD(平均绝对差算法)、SAD(绝对误差和算法)、SSD(误差平方和算法)、MSD(平均误差平方和算法)、SSDA(序贯相似性检测算法)、SATD(handmard变换算法),NCC(归一化互相关算法)。NCC(Normalized Cross...原创 2020-03-31 19:53:21 · 2817 阅读 · 0 评论 -
高斯混合模型
简述高斯混合模型是一种业界广泛使用的聚类算法,使用高斯分布作为参数模型,并使用期望最大(EM)算法进行训练。高斯分布高斯分布也被称为正态分布,是在自然界中广泛存在的一种分布形式。高斯分布的概率密度函数:其中:μ表示均值,对应正态分布的中间位置,表示标准差,衡量数据微淘均值分散的程度。例如人群的身高,可以用一个高斯分布来描述。对于高维正态分布:高斯混合模...原创 2020-03-31 17:20:29 · 558 阅读 · 0 评论 -
ID3决策树算法
1.决策树 首先要清楚,ID3算法的目的便是形成这样的一个决策树,生成这种决策树的核心是“条件”的顺序,得到“条件”出现的顺序便是ID3算法核心要做的事情。 ID3算法是基于“奥卡姆剃刀原理”来决定条件的先后顺序,所谓“奥卡姆剃刀原理”,即小型的决策树优于大型的决策树。反应在数学理论上面,便是基于信息增益来决定分类的先后顺序。2.信息增益2.1 信息熵在1948年,香农引入了信息熵,将其原创 2016-08-09 20:14:37 · 910 阅读 · 0 评论 -
CART决策树
简介 分类回归树算法:CART(Classfication And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。 分类树两个基本思想:第一个是将训练样本进行递归地划分自变量空间进行建树的思想,第二个是利用验证数据进行剪枝。1.建树原创 2016-10-26 23:31:59 · 606 阅读 · 0 评论 -
adaboost算法
1 简介 Adaboost算法是一种分类器增强算法,单独而言,不具备分类器的功能,需要与其他分类器相结合才能发挥作用。Adaboost算法的核心思想是多个分类器的线性加权集成,从而最终得出判断结果。最常用的场景是对弱分类器进行增强,所谓若分类器,是指分类器的正确率至少大于50%。 既然是多个分类器的线性加权集成,那么这里面就存在两个问题需要解决: 1.每个分类器的生成。 2.每个分类器的权重原创 2016-08-18 23:03:44 · 907 阅读 · 0 评论 -
广义线性模型
前言 在应用各种回归模型的时候,每种模型有两个函数是至关重要的,连接函数和损失函数。 例如最常见的线性回归模型: 连接函数: 损失函数: 广义线性模型就是解决连接函数和损失函数从何而来的问题。广义线性模型简介 广义线性模型属于指数分布族,指数分布族的原型如下: 其中:eta为自然参数,可能是一个向量.T(y)为充分统计量,可能是一个向量。利用广原创 2017-03-29 12:38:20 · 1033 阅读 · 0 评论 -
softmax回归
在广义线性模型中推导出了,如何根据回归模型的输出分布,推导出该模型的连接函数,和损失函数。 1.证明该分布属于指数分布族; 2.将连接函数(回归函数)表示为T(y)的期望,即计算E[T(y)|x]; 3.替换eta为x的线性表示。 在softmax回归的论述中,同样会遵循上述步骤。Softmax回归简介 Softmax回归可以看做是逻辑回归的扩展,逻辑回归只能进行二分类,输出只能为0或者1原创 2017-04-04 15:21:47 · 484 阅读 · 0 评论 -
回归模型综述
什么是回归问题? 在给定多个自变量,一个因变量以及代表它们之间关系的一些训练样本的情况下,确定它们的关系,从数学角度讲,就是求这个因变量关于这多个自变量的函数。而这个函数能够比较精确的表示这个因变量和这多个自变量之间的关系。解决一个回归问题需要有两个前提: 1. 训练样本。 2. 假设模型,既一个函数,这个函数里包含有未知的参数,通过学习,可以估计出这些参数。模型的训练不是盲目的,比如输入原创 2017-03-28 14:28:39 · 2144 阅读 · 0 评论 -
机器学习中的概率问题
前言机器学习的过程可以理解为计算机通过分析大量的数据获得模型,并通过获得的模型进行预测的过程。机器学习的模型可以有多种表示,例如线性回归模型,SVM模型,决策树模型,贝叶斯模型。概率类型在理解概率模型之前,首先要理解的各种概率类型所表示的确切含义。1.先验概率某事件发生的概率。2.条件概率在某种条件下,事件A发生的概率,可以是基于历史数据的统计,可以由...原创 2017-04-15 11:39:20 · 5066 阅读 · 0 评论 -
SVM支持向量机
1.简介在机器学习领域,很多时候会用到分类的一些算法,例如KNN,贝叶斯。我们可以把分类的样本简单除暴的分为两种类型。线性可分和非线性可分。可以使用一个非常简单的例子来解释什么是线性可分,什么是线性不可分。 (a)线性可分的2类样本(b)非线性可分的2类样已知一个线性可分的数据集{(x1,y1),(x2,y2),....原创 2015-09-03 22:44:24 · 746 阅读 · 0 评论 -
BP神经网络
顾名思义,人工神经网络是对生物神经网络的模拟。要想理解人工神经网络,首先得理解生物神经网络的工作方式。 1.生物神经元 这是一个神经元的基本结构图,大量的神经元相互连接构成复杂的神经网络。每个神经元有三个部分组成: 树突,细胞体和轴突。 树突:树状的神经纤维接受网络,它将输入的电信号传递给细胞体。 轴突:单根长纤维,它把细胞体的输出信号导向其他神经元。信号的传递过程:树突末梢原创 2016-07-18 20:38:32 · 1945 阅读 · 0 评论 -
激活函数
为什么要使用激活函数?在神经网络中,每一层的输入都是输入的线性函数,为了逼近任意函数(非线性函数),所以引入非线性函数作为激励函数。激活函数的特性非线性:为了使神经网络逼近任意函数。可微:一般采用基于梯度的网络优化方法。单调性:保证单层网络是凸函数。sigmod函数优点:缺点:当x较大或较小时,出现梯度消失。且导函数的最大值为0.25,意味着导数在每一层至少压缩为原来的...原创 2018-10-16 21:53:39 · 383 阅读 · 0 评论 -
LRN(局部响应归一化)
原理:LRN层模仿了生物神经系统的“侧抑制”机制,对局部神经元的活动创建竞争环境,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力。LRN对于ReLU这种没有上限边界的激活函数会比较有用,因为它会从附近的多个卷积核的响应中挑选比较大的反馈,但不适合Sigmoid之中有固定边界并且能抑制过大值的激活函数。是归一化后的值。表示第i个核位置(x,y)运用ReL...原创 2018-10-16 21:53:07 · 2548 阅读 · 0 评论