机器学习
qrlhl
这个作者很懒,什么都没留下…
展开
-
经验模式分解(EMD)——简介及Matlab工具箱安装
最近在做脑电信号分析,在导师的建议下学习了一点经验模式分解(下面简称EMD)的皮毛,期间也是遇到了很多问题,在这里整理出来,一是为了自己备忘,二是为了能尽量帮到有需要的朋友。一、EMD简介 经验模态分解(Empirical Mode Decomposition,EMD)法是黄锷(N. E. Huang)在美国国家宇航局与其他人于1998年创造性地提出的一种新型自适应信号时频处理方...原创 2016-08-15 17:32:14 · 127040 阅读 · 162 评论 -
Active Learning 主动学习
最近读了一篇paper,题目是An MRF Model-Based Active Learning Framework for the Spectral-Spatial Classification of Hyperspectral Imagery。(题目这么长我也不想的......)这篇文章主要说了马尔科夫随机场还有active learning (AL)结合的问题。刚开始让给我学习AL的时候我...原创 2015-09-30 14:49:29 · 28813 阅读 · 18 评论 -
预测数值型数据:回归(二)
上次我们留了个两个问题没有仔细说明,一个是局部加权线性回归,另一个是岭回归。今天依次对这两种算法进行说明。一、局部加权线性回归 欠拟合这种问题是仅仅凭借一条直线来对数据点进行拟合的线性回归算法所无法避免的,而解决这种欠拟合问题的方法中,有一种最为简便,称之为局部加权线性回归。顾名思义,局部加权线性回归就是指给被预测点周围的数据点赋以不同的权重,让预测更加注重局部上的趋势而不是整体上的趋势,这样的操原创 2016-04-20 13:49:26 · 2860 阅读 · 2 评论 -
Domain generalization 简介
一、综述 最近由于交流的需要,读了几篇关于Domain adaptation的文章,其中一种名叫Domain generalization的技术引起了我的注意,这种技术可以在target domain未知的情况下训练出分类器而且性能还相当不错,下面就对这种技术进行一下简单的介绍。二、迁移学习 提到Domain adaptation,就不得不提到迁移学习(transfer learning),按照原创 2016-04-11 11:02:18 · 9153 阅读 · 3 评论 -
对反向传播算法(Back-Propagation)的推导与一点理解
最近在对卷积神经网络(CNN)进行学习的过程中,发现自己之前对反向传播算法的理解不够透彻,所以今天专门写篇博客记录一下反向传播算法的推导过程,算是一份备忘录吧,有需要的朋友也可以看一下这篇文章,写的挺不错的:http://www.cnblogs.com/lancelod/p/4164231.html,本文也大量参考了这篇文章。本文在推导过程中忽略了偏置的存在,这样做是为了更简单明晰的阐述BP算法的原创 2016-03-14 13:35:18 · 21294 阅读 · 1 评论 -
最大间隔多超平面分类器(多线性SVM分类器)介绍及Matlab实现
一、最大间隔多超平面分类器介绍最近在做论文复现的工作,论文的名称是“Disentangling Disease Heterogeneity with Max-Margin Multiple Hyperplane Classifier”,其目的是利用最大间隔多超平面分类器对疾病的异质性进行研究。所谓的最大间隔多超平面分类器就是多线性SVM分类器的另一种称呼。而多线性SVM也就是用多个线性SVM的组合来原创 2016-03-30 10:30:24 · 5480 阅读 · 0 评论 -
多示例学习 multiple instance learning (MIL)
最近看了几篇关于多示例学习的文章,虽然都是医学方面的,但是还是对我很有启发。另外,多示例学习近几年已经逐渐被用于基于机器学习框架的组织病理学图像癌症检测等方面,是计算机辅助诊断这一学科中一种新崛起的方法,下面就按照我在论文和网上学到的知识对多示例学习进行一下简单的介绍。 在介绍多示例学习之前,首先要了解两个概念:包(bags)和示例(instance)。包是由多个示例组成的,举个原创 2016-03-05 18:34:04 · 17264 阅读 · 6 评论 -
MICCAI 2015 partI 论文简单总结
最近有一些调研的任务,就把MICCAI 2015 partI 的88篇论文简单过了一下,总结成了一个表格,方便自己以及有需要的朋友查阅。 顺便介绍一下MICCAI这个会议,它在计算机辅助诊断领域即计算机与医学结合领域的地位无人能及啊,有超过CVPR在机器学习领域的势头,论文的质量很高,很值得一读。序号标题发病部位/疾病 诊疗方法深度学习(1有,原创 2016-03-01 18:56:44 · 4980 阅读 · 2 评论 -
ROC(Receiver Operating Characteristic)曲线简介
最近在看一些医学和机器学习结合的论文,这些论文里面评价分类器的分类性能最常用的指标之一就是ROC曲线。同时我也注意到在一些涉及到实际应用的场景中,ROC曲线出现的频率也很高。鉴于以上原因,接下来我就对ROC曲线进行一下简单的介绍。 首先我们先考虑一下平时我们常用的度量分类模型分类能力的标准。现在称霸ML界的标准:分类精度(accuracy)想必大家都不陌生,但是对于一些实际原创 2015-12-07 19:28:13 · 16037 阅读 · 0 评论 -
医学图像分析的新机遇
好久没回来博客了,博客上似乎都落了薄薄的一层灰。。。最近有一些想法可惜一直没什么空整理出来,今天就先写一点出来,防止最后忘记了 今天加拿大西安大略大学的 Li Shuo 教授来我们实验室交流,主题是 New Opportunities in Medical Image Analysis。在报告中,Li 教授提到了一些十分新颖的图像分析方向,我将其精髓整理下来,希望对一些从事图像处原创 2015-12-21 17:48:11 · 2253 阅读 · 2 评论 -
GBDT要点简介
本文摘取网络上一篇文章的要点进行讲解,更多细节在:http://blog.csdn.net/w28971023/article/details/8240756一、什么是GBDT? GBDT(Gradient Boosting Decision Tree) 是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来作为最终结果。它在被提出之初就和SVM一起被认为是泛化能力(generali转载 2016-11-28 10:21:20 · 918 阅读 · 0 评论 -
神经网络中的激活函数(activation function)-Sigmoid, ReLu, TanHyperbolic(tanh), softmax, softplus
不管是传统的神经网络模型还是时下热门的深度学习,我们都可以在其中看到激活函数的影子。所谓激活函数,就是在神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。常见的激活函数包括Sigmoid、TanHyperbolic(tanh)、ReLu、 softplus以及softmax函数。这些函数有一个共同的特点那就是他们都是非线性的函数。那么我们为什么要在神经网络中引入非线性的激活函数呢?...原创 2017-03-08 22:06:34 · 48462 阅读 · 4 评论 -
基于EEG信号的情绪分析数据库DEAP论文调研
DEAP数据库包含了对于40个实验,32位受试者的32导联脑电数据,情绪标签(Russell二维情绪空间)由受试者给出,可以用来测试情绪分类算法的有效性。以下调研针对的是2016-2017年采用DEAP数据库进行情感分类的论文。 序号 年份 题目 预处理 特征 模型 结果 简介 1 2017 Using Deep and Convoluti...原创 2017-05-15 14:39:55 · 21040 阅读 · 57 评论 -
拉普拉斯特征映射(Laplacian Eigenmaps)
1、介绍拉普拉斯特征映射(Laplacian Eigenmaps)是一种不太常见的降维算法,它看问题的角度和常见的降维算法不太相同,是从局部的角度去构建数据之间的关系。也许这样讲有些抽象,具体来讲,拉普拉斯特征映射是一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构。 本文参考http://blog.csdn.net/xb原创 2017-09-22 21:11:18 · 49144 阅读 · 35 评论 -
条件随机场(CRF)
本文是结合李航《统计学习方法》以及互联网资料整理得出,感谢各位作者的贡献。 - 是判别模型 - 假设输出随机变量构成马尔科夫随机场 - 标注问题—>线性链条件随机场—>由输入序列对输出序列预测的判别模型—>对数线性模型概率无向图模型概率无向图模型又称马尔科夫随机场,是一个可以由无向图表示的联合概率分布模型定义图:由结点vv的集合VV和边ee的集合EE构成,G=(V,E)G=(V,E)概原创 2017-10-24 23:05:32 · 2147 阅读 · 0 评论 -
衡量文档相似性的一种方法-----词移距离 Word Mover's Distance
问题的提出假如现在有一个任务,是判断两段文本之间的相似性,那我们应该怎么做呢?一个很自然的想法是用word2vec对两段文本的词向量化,然后再利用欧氏距离或者余弦相似性进行求解。不过这种方法有着致命的缺陷,即无法从文档整体上来考虑相似性,仅仅是基于词,这就造成了很大的信息缺失问题,下面要介绍的这种方法可以从文档整体上来考虑两个文档之间的相似性,这种技术称为词移距离(WMD)。词移距离(WMD)究竟什原创 2017-11-12 16:24:18 · 10678 阅读 · 5 评论 -
XGBoost原理
本文大量参考雪伦大佬的博客 以及wepon大佬的ppt,在此表示感谢!目标函数XGBoost目标函数的定义:L(ϕ)=∑il(y^i,yi)+∑kΩ(fk)whereΩ(f)=γT+12λ||w||2\mathcal{L}(\phi)=\sum_il(\hat y_i,y_i)+\sum_k\Omega(f_k)\\where\quad\Omega(f)=\gamma T+ \dfrac{1}{原创 2017-10-09 22:17:25 · 2055 阅读 · 0 评论 -
线性判别分析LDA(Linear Discriminant Analysis)
1、简介大家熟知的PCA算法是一种无监督的降维算法,其在工作过程中没有将类别标签考虑进去。当我们想在对原始数据降维后的一些最佳特征(与类标签关系最密切的,即与yy相关),这个时候,基于Fisher准则的线性判别分析LDA就能派上用场了。注意,LDA是一种有监督的算法。本文参考“JerryLead”的文章线性判别分析(Linear Discriminant Analysis)(一)及线性判别分析(Li原创 2017-09-21 19:51:51 · 4880 阅读 · 2 评论 -
预测数值型数据:回归(一)
机器学习算法的基本任务就是预测,预测目标按照数据类型可以分为两类:一种是标称型数据(通常表现为类标签),另一种是连续型数据(例如房价或者销售量等等)。针对标称型数据的预测就是我们常说的分类,针对数值型数据的预测就是回归了。这里有一个特殊的算法需要注意,逻辑回归(logistic regression)是一种用来分类的算法,那为什么又叫“回归”呢?这是因为逻辑回归是通过拟合曲线来进行分类的。也就是说,原创 2016-04-19 16:47:38 · 6038 阅读 · 0 评论 -
降维算法(LASSO、PCA、聚类分析、小波分析、线性判别分析、拉普拉斯特征映射、局部线性嵌入)
1、LASSOLASSO全称least absolute shrinkage and selection operator,本身是一种回归方法。与常规回归方法不同的是,LASSO可以对通过参数缩减对参数进行选择,从而达到降维的目的。说到LASSO,就不得不说岭回归,因为LASSO就是针对岭回归不能做参数选择的问题提出来的。关于岭回归的解释,可以参照我的另一篇文章预测数值型数据:回归(二),这里不再赘原创 2017-09-22 21:13:51 · 19086 阅读 · 1 评论 -
局部线性嵌入(LLE)
1、介绍本文参考:http://www.cnblogs.com/pinard/p/6266408.html(1)概述LLE属于流形学习(Manifold Learning)的一种,通常流形理解起来比较抽象,在LLE里,我们可以简单的将流形看做一个不闭合的曲面,类似于下图: 而我们的目的就是将其展开到低维,在上图也就是展开到二维,同时数据的结构特征要能够得到最大程度的保持,这个过程就像两个人将流行曲转载 2017-09-23 17:18:23 · 11846 阅读 · 3 评论 -
短时傅里叶变换在EEG信号特征提取中的应用(通俗版)
众所周知,傅里叶变换的快速算法FFT可以用来对信号的频域特征进行分析,然而,FFT仅能用于平稳信号的分析,对于非平稳信号,则需要采用短时傅里叶变换(STFT)进行分析。原创 2017-05-15 15:46:44 · 17584 阅读 · 23 评论 -
迁移学习(transfer learning)、多任务学习(multi-task learning)、深度学习(deep learning)概念摘抄
本文在写作过程中参考了诸多前辈的博客、论文、笔记等。由于人数太多,在此不一一列出,若有侵权,敬请告知,方便我进行删改,谢谢!!!迁移学习(Transfer Learning)迁移学习出现的背景如下:在一些新兴领域很难得到我们需要的大量的训练数据,另外,传统的机器学习需要对每个领域都标定大量训练数据,这将会耗费大量的人力与物力。而迁移学习(Transfer Learning)的目标是原创 2015-10-11 14:36:06 · 14514 阅读 · 1 评论 -
简单易学的机器学习算法——极限学习机(ELM)
转自http://blog.csdn.net/google19890102/article/details/18222103一、极限学习机的概念 极限学习机(Extreme Learning Machine) ELM,是由黄广斌提出来的求解单隐层神经网络的算法。 ELM最大的特点是对于传统的神经网络,尤其是单隐层前馈神经网络(SLFNs),在保证学习精度转载 2015-11-03 09:31:47 · 3353 阅读 · 2 评论 -
机器学习实战-KNN算法实现及遇到的问题总结
最近在看《机器学习实战》这本书,内容充实,重视实践,很不错,也很适合机器学习的入门。下面贴上用python编写的KNN算法代码,放在博客里安全啊~~我的电脑随时都会崩溃的....from numpy import *import operatorfrom os import listdirdef classify0(inx,dataset,labels,k): datasets原创 2015-10-10 16:26:16 · 3505 阅读 · 0 评论 -
第一集 机器学习的动机与应用
对于机器学习的定义:Arthur Samuel的非正式定义:在不直接针对问题编程的情况下赋予计算机学习能力的一个研究领域。TomMitchell :对于一个计算机程序来说,给他一个任务T和一个性能测量方法P,如果在经验E的影响下,P对T的测量结果得到了改进,那么就说该程序从E中学习。总体上来讲,机器学习所采用的学习型算法相当有趣。它可以避免繁重的编程实现,通过相对简单的学习型算原创 2015-08-18 11:13:52 · 1192 阅读 · 0 评论 -
第六课 朴素贝叶斯算法
本课首先介绍了两种朴素贝叶斯算法的事件模型,之后介绍了神经网络算法(neural networks),并在最后介绍了两个重要的概念:函数间隔和几何间隔,基于这两个概念提出了一个线性分类算法:最大间隔分类器算法。该算法用于引出一个非常重要的非线性分类算法:支持向量机。关于支持向量机的具体内容会在下节课进行讲解。 朴素贝叶斯算法的两种事件模型: (1)针对特征值而不再限定特征值只能取0原创 2015-08-21 15:13:04 · 1153 阅读 · 0 评论 -
第十一集 贝叶斯统计和规则化
本讲先介绍了贝叶斯统计和规范化;之后简单介绍了在线学习的概念;之后介绍了机器学习算法设计中的问题诊断技巧;之后介绍了两种分析技巧:误差分析与销蚀分析;最后介绍了两种应用机器学习算法的方式与适用场景。 关于贝叶斯统计和规则化我个人认为就是找出新的估计方法来代替原有的最大似然估计这个方法来减少过拟合这种情况的发生。下面关于贝叶斯统计和规则化的笔记,依旧援引自之前提到的那位大神…原创 2015-08-31 16:29:05 · 3035 阅读 · 0 评论 -
第三集 欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法
课程大纲 欠拟合的概念(非正式):数据中某些非常明显的模式没有成功的被拟合出来。如图所示,更适合这组数据的应该是而不是一条直线。 过拟合的概念(非正式):算法拟合出的结果仅仅反映了所给的特定数据的特质。 非参数学习方法线性回归是原创 2015-08-19 14:48:46 · 1893 阅读 · 0 评论 -
第七集 最优间隔分类器问题
本课首先提出了原始的优化问题:最优间隔分类器问题,之后介绍了对偶问题的概念和KKT条件,之后基于原始优化问题的对偶问题的分析,介绍了SVM算法。课程的最后对SVM算 法进行了评价,以引出下节课对核方法的介绍。回顾:对于几何间隔来说,以相同的比例缩放w,b,不会对几何间隔造成影响。对最大间隔分类器的另一种表述:优化目标:约束条件: 下面对这个优化问题进行等原创 2015-08-22 16:27:15 · 1227 阅读 · 0 评论 -
logistic 回归Matlab代码
function aalpha = 0.0001;[m,n] = size(q1x);max_iters = 500;X = [ones(size(q1x,1),1), q1x]; % append col of ones for intercept termtheta = zeros(n+1, 1); % initialize thetafor k = 1:max_iters原创 2015-08-28 17:20:18 · 12536 阅读 · 0 评论 -
今天开始自学Andrew Ng的机器学习,希望可以坚持下来
今天开始正式接触机器学习,20集的课程争取在开学前看完。每看完一集会在博客记录笔记,加油!原创 2015-08-18 09:44:05 · 979 阅读 · 0 评论 -
第五课 生成学习算法
本课首先介绍了一类新的学习算法——生成学习算法(Generative learning algorithms),并详细地介绍了该算法的一个例子:高斯判别分析(GDA);之后对生成学习算法与之前的判别学习算法进行了简单的对比;最后介绍了一个适合对文本进行分类的算法——朴素贝叶斯算法,并结合该算法介绍了一种常用的平滑技术——Laplace平滑。 判别学习算法代表:logistic 回归原创 2015-08-20 16:18:44 · 1005 阅读 · 0 评论 -
牛顿方法的简单MATLAB编程示意
function y = f(x)y=(x-2)^2;function x0syms x;x0=rand;while f(x0)~=0x0=-f(x0)/vpa(subs(diff((x-2)^2),x,x0))+x0;end;原创 2015-08-28 17:24:22 · 1841 阅读 · 0 评论 -
第十集 特征选择
本讲首先介绍了VC维的概念——该概念能够将关于ERM一般误差的界的结论推广到无限假设类的情形;之后介绍了模型选择问题——具体介绍了交叉验证方法以及几种变形;最后介绍了特征选择问题——具体介绍了两类方法:封装特征选择和过滤特征选择。 VC维 定义:给定一个由d个点构成的集合 ,如果假设类集合H可以实现S的任意一种标记方式(labley),我们就说H能够分散集合S。 假设H是一原创 2015-08-28 15:04:07 · 1138 阅读 · 0 评论 -
第八集 顺序最小优化算法
本次的笔记参考了点击打开链接中的一部分观点,用了作者的一部分图像,若有侵权,请及时联系我。 本讲首先介绍了核的概念——它在SVM以及许多学习算法中都有重要的应用,之后介绍了L1 norm软间隔SVM——它是一种SVM的变化形式,可以处理非线性可分隔的数据,最后介绍了SMO算法——一种高效的可以解决SVM优化问题的算法。 核函数 在最初提原创 2015-08-25 16:03:51 · 3550 阅读 · 0 评论 -
第九集 经验风险最小化(ERM)
实在写不动了,将word文档转换为PDF直接截图了...原创 2015-08-26 17:11:31 · 1484 阅读 · 6 评论 -
终身机器学习(Lifelong Machine Learning)综述
大概有十几天了没有回来更新博客了吧,这期间遇到了大大小小各种事情,最悲伤的事应该是跟我关系最好的一个哥们的父亲去世了,被酒驾的人撞了,希望叔叔在天国安好!再次告诫各位开车一定不能喝酒,不只是对自己负责,也是对他人生命的尊重,在这里谢过大家了!下面说一说我这些天积累的一点东西,是关于终身机器学习(Lifelong Machine Learning)的一些知识。所谓终身机器学习,就是这个模原创 2015-10-23 17:34:57 · 19244 阅读 · 41 评论 -
PCA主成分分析
好久没更新博客了,今天想写一下我对主成分分析(Principal components analysis)的理解。最开始接触到主成分分析(PCA for short)是在有关高光谱图像分类的论文中,PCA是作为对照方法凸显文中所提出的方法的优越性的。(感觉PCA好惨......)这同样也说明了,PCA应该是一个很经典,应用面很广的方法,并且性能也很好~~~正所谓木秀于林,风必摧之;PCA在我看的那原创 2015-09-19 16:39:19 · 8433 阅读 · 0 评论 -
多线性主成分分析(MPCA)简介
因为图片和字母较多,直接打上来不方便,就转成PDF再截图贴上来,希望能好看一点原创 2015-11-06 16:20:05 · 8235 阅读 · 12 评论