- 博客(1141)
- 资源 (42)
- 收藏
- 关注
转载 SVM实现多分类的三种方案
SVM本身是一个二值分类器 SVM算法最初是为二值分类问题设计的,当处理多类问题时,就需要构造合适的多类分类器。 目前,构造SVM多类分类器的方法主要有两类 (1)直接法,直接在目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单,但其计算复杂度比较高,实现起来比较困难,只适合用于小型问题中;
2017-05-23 11:54:53 4832
转载 Active Learning
阅读目录1. 写在前面2. 什么是active learning?3. active learning的基本思想4. active learning与半监督学习的不同5. 参考文献回到顶部1. 写在前面 在机器学习(Machine learning)领域,监督学习(Supervised learning)、非监督学习(Unsupervise
2017-05-23 11:53:38 709
转载 总结:Bootstrap(自助法),Bagging,Boosting(提升)
前言最近在理清一些很必要的也很基础的东西,记录一下,结合网上和文献,自己也有些易化使之更轻松理解,如有错误,请不吝赐教,多谢!Bootstrap(自助法)Bootstrap是一种抽样方法核心思想这里写图片描述子样本之于样本,可以类比样本之于总体栗子:我要统计鱼塘里面的鱼的条数,怎么统计呢?假设鱼塘总共有鱼100
2017-05-23 11:41:12 1185
转载 机器学习经典算法详解及Python实现--元算法、AdaBoost
版权声明:本文为博主原创文章,未经博主允许不得转载--“http://blog.csdn.net/suipingsp”。目录(?)[+]第一节,元算法略述遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果。如同专家团临床会诊一样,重大决定汇总多个人的意见往往胜过一个人的决定。机器学习中也吸取了‘三个臭皮匠顶个诸葛亮’(实质上是由三个裨将顶
2017-05-23 11:11:09 602
转载 集成学习方法
很好的参考:https://ocw.mit.edu/courses/health-sciences-and-technology/hst-951j-medical-decision-support-fall-2005/lecture-notes/hst951_6.pdf 集成学习是机器学习算法中非常强大的工具,有人把它称为机器学习中的“屠龙刀
2017-05-23 11:08:40 527
转载 sigmoid和softmax总结
sigmoid函数(也叫逻辑斯谛函数): 引用wiki百科的定义: A logistic function or logistic curve is a common “S” shape (sigmoid curve). 其实逻辑斯谛函数也就是经常说的sigmoid函数,它的几何形状也就是一条sigmoid曲线。 logistic曲线如下:
2017-05-22 19:44:18 681
转载 Python中flatten用法
一、用在数组 >>> a = [[1,3],[2,4],[3,5]] >>> a = array(a) >>> a.flatten() array([1, 3, 2, 4, 3, 5]) 二、用在列表如果直接用flatten函数会出错 >>> a = [[1,3],[2,4],[3,5]] >>
2017-05-22 18:21:55 875
转载 numpy中的matrix矩阵处理
numpy模块中的矩阵对象为numpy.matrix,包括矩阵数据的处理,矩阵的计算,以及基本的统计功能,转置,可逆性等等,包括对复数的处理,均在matrix对象中。 class numpy.matrix(data,dtype,copy):返回一个矩阵,其中data为ndarray对象或者字符形式;dtype:为data的type;copy:为bool类型。>>> a = np.matrix(
2017-05-22 18:11:59 551
转载 使用SQL语句从数据库一个表中随机获取数据
-- 随机获取 10 条数据SQL Server:SELECT TOP 10 * FROM T_USER ORDER BY NEWID()ORACLE:SELECT * FROM (SELECT * FROM T_USER ORDER BY DBMS_RANDOM.RANDOM()) WHERE RONUM MySQL:SELECT * FROM T_USER
2017-05-22 16:27:10 5347
转载 独立成分分析(Independent Component Analysis)
独立成分分析(Independent Component Analysis)1. 问题: 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间中一些角落里
2017-05-22 12:34:45 493
转载 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset
原文地址: http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/Has this happened to you?You are working on your dataset. You create a classific
2017-05-22 12:09:53 508
转载 随机采样方法整理(MCMC、Gibbs Sampling等)
转载请注明出处:Bin的专栏,http://blog.csdn.NET/xbinworld本文是对参考资料中多篇关于sampling的内容进行总结+搬运,方便以后自己翻阅。其实参考资料中的资料写的比我好,大家可以看一下!好东西多分享!PRML的第11章也是sampling,有时间后面写到PRML的笔记中去:)背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo S
2017-05-22 12:01:59 766
转载 【译文】R语言不平衡数据分类指南
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现?在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此,机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较
2017-05-22 11:08:20 3542
转载 斯坦福大学机器学习——因子分析(Factor analysis)
1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题。让
2017-05-21 20:49:57 3262 1
转载 斯坦福大学机器学习——EM算法求解高斯混合模型
EM算法(Expection-Maximizationalgorithm,EM)是一种迭代算法,通过E步和M步两大迭代步骤,每次迭代都使极大似然函数增加。但是,由于初始值的不同,可能会使似然函数陷入局部最优。辜丽川老师和其夫人发表的论文:基于分裂EM算法的GMM参数估计(提取码:77c0)改进了这一缺陷。下面来谈谈EM算法以及其在求解高斯混合模型中的作用。一、 高斯混合模型(Gauss
2017-05-21 20:27:15 595
转载 深入解析python版SVM源码系列(三)——计算样本的预测类别
系列(二)中,对于SMO算法中有一个重要的代码:计算样本的预测类别。如下:fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b # 第i样本的预测类别11我们知道原始的预测类别计算公式是用决策面的参数w和b表示的,那么为什么这里的貌似不一样呢? 原始的预测类别计算公式为:
2017-05-21 14:59:50 1412
转载 EM算法--应用到三个模型: 高斯混合模型 ,混合朴素贝叶斯模型,因子分析模型
判别模型求的是条件概率p(y|x),生成模型求的是联合概率p(x,y) .即 = p(x|y) ∗ p(y) 常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件 随机场、神经网络等。常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。所以这里说的高斯混合模型,
2017-05-21 10:47:09 3081
转载 从最大似然到EM算法浅解
从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到
2017-05-21 10:40:12 276
转载 K-mean原理及实践(K值确定)
kmeans一般在数据分析前期使用,选取适当的k,将数据聚类后,然后研究不同聚类下数据的特点。 算法原理:(1) 随机选取k个中心点;(2) 在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类;(3) 更新中心点为每类的均值;(4) j空间复杂度o(N)时间复杂度o(I*K*N)其中N为样本点个数,K为中心点个数,I为
2017-05-21 10:39:17 5985
转载 数据中聚类个数的确定(Determining the number of clusters in a data set)
版权声明:本文为博主原创文章,欢迎转载,转载请注明出处。目录(?)[+]本文主要讨论聚类中聚类个数的确定问题。本文地址:http://blog.csdn.net/shanglianlm/article/details/466712091. K的作用Intuitively then, the optimal choice of k
2017-05-20 22:54:17 1814
转载 logistic算法解析
[python] view plain copy"font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">对于《机器学习实战》中逻辑斯谛回归算法,其中有一行不好理解: [python] view plain copy
2017-05-20 15:36:54 729
转载 numpy 数组和矩阵的乘法的理解
1. 当为array的时候,默认d*f就是对应元素的乘积,multiply也是对应元素的乘积,dot(d,f)会转化为矩阵的乘积, 2. 当为mat的时候,默认d*f就是矩阵的乘积,multiply转化为对应元素的乘积,dot(d,f)为矩阵的乘积 3. 混合时候的情况,一般不要混合 混合的时候默认按照矩阵乘法的, multiply转化为对应
2017-05-20 15:08:43 47952 4
转载 机器学习之特征选择
特征选择方法初识:1、为什么要做特征选择在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。3、特征选取的原则获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点
2017-05-20 11:56:14 891
转载 互信息(Mutual Information)
本文根据以下参考资料进行整理: 1.维基百科:https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF 2.新浪博客:http://blog.sina.com.cn/s/blog_6255d20d0100ex51.html 在概率论和信息论中,两个随机变量的互信息(Mutual Information,
2017-05-20 11:54:57 4744
转载 互信息(Mutual Information)的介绍
[+]概念互信息,Mutual Information,缩写为MI,表示两个变量X与Y是否有关系,以及关系的强弱。公式我们定义互信息的公式为:I(X,Y)=∫X∫YP(X,Y)logP(X,Y)P(X)P(Y)可以看出,如果X与Y独立,则P(X,Y)=P(X)P(Y),I(X,Y)就为0,即代表X与Y不相关解析公式其中,H(Y)是Y的
2017-05-20 11:54:14 14354
转载 模型选择的一些基本思想和方法
0. 引言有监督学习是日常使用最多的建模范式,它有许多更具体的名字,比如预测模型、回归模型、分类模型或者分类器。这些名字或来源统计,或来源于机器学习。关于统计学习与机器学习的区别已经有不少讨论,不少人认为机器学习侧重于目标预测,而统计学习侧重于机制理解和建模。个人更加直观的理解是,统计学习侧重于从概率分布来描述数据生成机制,除了预测之外,还关心结果(参数假设、误差分布假设)的检验,而机器学
2017-05-20 11:51:47 11063
转载 VC维的来龙去脉
说说历史Hoeffding不等式Connection to Learning学习可行的两个核心条件Effective Number of HypothesesGrowth FunctionBreak Point与ShatterVC BoundVC dimension深度学习与VC维小结参考文献VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理论基础,但有时
2017-05-20 11:48:01 654
转载 机器学习中特征降维和特征选择的区别
在machine learning中,特征降维和特征选择是两个常见的概念,在应用machine learning来解决问题的论文中经常会出现。 对于这两个概念,很多初学者可能不是很清楚他们的区别。很多人都以为特征降维和特征选择的目的都是使数据的维数降低,所以以为它们是一样的,曾经我也这么以为,这个概念上的误区也就导致了我后面对问题的认识不够深入。后来得到老师的指点才彻底搞清楚了两者
2017-05-20 11:45:23 511
转载 偏差,方差,训练误差,测试误差的区别
偏差:就是预测值的期望 离所有被预测的样本的真实值的``距离的期望。 刻画了学习算法本身的拟合能力。 方差:就是预测值的期望离所有被预测的样本的预测值的“距离的期望。刻画了数据扰动所造成的影响。 预测值的期望就好像测试集所有点的中心。注意我们在实际中,为评价模型的好坏,从总数据集中抽取一部分作为自己的测试集。上面提到的预测值,是用模型拟合测试数据时得到的预测值。所以我们
2017-05-19 20:44:09 1580
转载 偏差与方差(Bias and Variance)
1我们将从三个方面阐述偏差与方差。(Bias and Variance) 1.1概念性的定义基于偏差的误差:所谓基于偏差的误差是我们模型预期的预测与我们将要预测的真实值之间的差值。偏差是用来衡量我们的模型的预测同真实值的差异。基于方差的误差:基于方差的误差描述了一个模型对给定的数据进行预测的可变性。比如,当你多次重复构建完整模型的进程时,方差是在预测在模型的不同关系
2017-05-19 14:31:49 571
转载 Hoeffding不等式
Hoeffding不等式是关于一组随机变量均值的概率不等式。 如果X1,X2,⋯,Xn为一组独立同分布的参数为p的伯努利分布随机变量,n为随机变量的个数。定义这组随机变量的均值为:对于任意δ>0, Hoeffding不等式可以表示为上面的公式似乎写的不是很详细,所以我又从网上copy了一份其他的解释:Hoeffding不等式:Hoeffding不
2017-05-19 14:10:45 2836
转载 多重共线性的解决方法之——岭回归与LASSO
标签:???多元线性回归模型的最小二乘估计结果为如果存在较强的共线性,即 中各列向量之间存在较强的相关性,会导致的从而引起对角线上的 值很大并且不一样的样本也会导致参数估计值变化非常大。即参数估计量的方差也增大,对参数的估计会不准确。因此,是否可以删除掉一些相关性较强的变量呢?如果p个变量之间具有较强的相关
2017-05-19 12:37:30 9010
转载 期望风险、经验风险与结构风险之间的关系
在机器学习中,通常会遇到期望风险、经验风险和结构风险这三个概念,一直不知道这三个概念之间的具体区别和联系,今天来梳理一下:要区分这三个概念,首先要引入一个损失函数的概念。损失函数是期望风险、经验风险和结构风险的基础。损失函数是针对单个具体的样本而言的。表示的是模型预测的值与样本真实值之间的差距。比如对于某个样本,其真实的值为Yi,而我们的模型选择决策函数为f,那么通过模型预测的值为
2017-05-19 12:36:02 3812 1
转载 你应该掌握的七种回归技术
【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分
2017-05-19 12:34:23 311
转载 Lasso回归算法: 坐标轴下降法与最小角回归法小结
原文 :http://www.cnblogs.com/pinard/p/6018889.html前面的文章对线性回归做了一个小结,文章在这: 线性回归原理小结。里面对线程回归的正则化也做了一个初步的介绍。提到了线程回归的L2正则化-Ridge回归,以及线程回归的L1正则化-Lasso回归。但是对于Lasso回归的解法没有提及,本文是对该文的补充和扩展。以下都用矩阵法表示,如果对于矩阵分析不
2017-05-19 11:55:08 3133
转载 Least Angle Regression
http://mlnotes.com/2013/08/21/lars.html背景知识最小角回归和模型选择比较像,是一个逐步的过程,每一步都选择一个相关性最大的特征,总的运算步数只和特征的数目有关,和训练集的大小无关。最小角回归训练时的输入为特征矩阵 X={X1,X2,...,XP},和期输出向量Y={y1,y2,...,yN},Xi 是长度为N的矩阵,N表示训练集的大小,P则
2017-05-19 11:47:07 454
转载 机器学习方法:回归(三):最小角回归Least Angle Regression(LARS),forward stagewise selection
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 希望与志同道合的朋友一起交流,我刚刚设立了了一个技术交流QQ群:433250724,欢迎对算法、技术、应用感兴趣的同学加入。前面两篇回归(一)(二)复习了线性回归,以及L1与L2正则——lasso和ridge regression。特别描述了lasso的稀疏性是如何产生的。在本篇中介绍一下和la
2017-05-19 11:36:22 791
转载 弹性网络( Elastic Net) 多任务 Lasso回归 MultiTaskLasso
ElasticNet 是一种使用L1和L2先验作为正则化矩阵的线性回归模型.这种组合用于只有很少的权重非零的稀疏模型,比如:class:Lasso, 但是又能保持:class:Ridge 的正则化属性.我们可以使用 l1_ratio 参数来调节L1和L2的凸组合(一类特殊的线性组合)。当多个特征和另一个特征相关的时候弹性网络非常有用。Lasso 倾向于随机选择其中一个,而弹性网络更倾向于选择两
2017-05-19 11:02:36 8472
转载 优化中的subgradient方法
版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]哎,刚刚submit上paper比较心虚啊,无心学习,还是好好码码文字吧。subgradient介绍subgradient中文名叫次梯度,和梯度一样,完全可以多放梯度使用,至于为什么叫子梯度,是因为有一些凸函数是不可导的,没法用梯度,所以subgradient就在这里使用了。注意
2017-05-19 10:54:34 749
转载 次导数 次梯度 小结
.导数(Derivative)的定义在说次梯度之前,需要先简单介绍一下导数的概念与定义。导数(英语:Derivative)是微积分学中重要的基础概念。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。导数的本质是通过极限的概念对函数进行局部的线性逼近。 对于一般的函数f(x),其导数为: f′(x)=limΔx→0ΔyΔx=limΔx→0f(x0+Δx)−f(x0)
2017-05-19 10:53:05 746
Pro Go The Complete Guide -go语言学习最新书籍
2023-06-19
Advanced_Programming_in_the_UNIX_Environment,_3rd
2018-11-30
Deep_Learning_Quick_Reference
2018-09-01
Convex Optimization Algorithms
2018-09-01
Guide.to.Medical.Image.Analysis.Methods.and.Algorithms
2018-09-01
Python Machine Learning Machine Learning and Deep Learning
2018-03-27
Data Structures and Algorithms Using Python and C++
2018-03-27
R_for_Data_Science
2018-03-27
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
2018-03-17
Approximate.Dynamic.Programming.2011
2018-01-17
Swarm Intelligence Principles Advances and Applications
2018-01-13
Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf
2017-12-18
Fundamentals of Deep Learning完整非扫描版本2017
2017-12-16
Text Mining in Practice with R 2017.12
2017-12-13
Text_Mining-From_Ontology_Learning_to_Automated_Text_Processing_Applications
2017-12-13
Tensorflow 机器学习参考手册2007
2017-11-22
Spark大数据处理技术 带标签 完整版
2017-11-12
模式分类11
2016-11-07
集体编程智慧
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人