![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 77
风景不在对岸wj
这个作者很懒,什么都没留下…
展开
-
7.4多元线性回归实例1--python机器学习
原文地址参考彭亮老师的视频教程:转载请注明出处及彭亮老师原创视频教程: http://pan.baidu.com/s/1kVNe5EJ1. 例子 一家快递公司送货:X1: 运输里程 X2: 运输次数 Y:总运输时间 Driving AssignmentX1=Miles Travel转载 2017-03-12 11:29:37 · 2259 阅读 · 0 评论 -
坐标下降法(Coordinate descent)
首先介绍一个算法:coordinate-wise minimization问题的描述:给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小值。形式化的描述为:是不是对于所有的d,i都有这里的代表第i个标准基向量。答案为成立。这是因为:但是问题来了,如果对于凸函数f,若不转载 2017-09-06 16:01:52 · 3064 阅读 · 0 评论 -
AdaBoost与随机森林区别
AdaBoost首先明确一个大方向:强可学习和弱可学习是等价的。所以,弱可学习方法可以提升为强可学习方法。AdaBoost最具代表性。对于提升方法,有两个问题需要回答:每一轮如何改变训练数据的权值或概率分布?如何将弱分类器组合成一个强分类器?AdaBoost的做法:提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。加权多数表决的方法转载 2017-09-02 11:42:40 · 1019 阅读 · 0 评论 -
【机器学习方法研究】——思路整理、支持向量机
机器学习方法是计算机科学的一个分支,它借助于计算机算法,对数据进行分析后,实现模式识别,进而实现对未来数据的预测。机器学习方法可以分为以下几个类别:1.监督学习:训练的输出分类是预先设定好的,根据输入和输出,算法的目标在于寻找其中的对应函数。2.无监督学习:训练的输出分类是预先不知道的。算法的目标在于发现数据中的结构,如聚类分析。3.半监督学习:介于监督学习转载 2017-10-06 19:05:59 · 1221 阅读 · 0 评论 -
SVM——分类与回归实例
在线课堂——支持向量机实例学习笔记。支持向量机简介支持向量机是一种监督学习数学模型,由n个变量组成的数据项都可以抽象成n维空间内的一个点,点的各个维度坐标值即为各个变量。如果一堆数据项可以分为m个类,那么可以构建m-1个n维超平面将不同种类的数据项的点尽量分隔开,则这些超平面为支持向量面,这个分类数学模型为支持向量机分类模型。Classification分析——鸢尾花数据集Scik转载 2017-10-06 21:56:47 · 3963 阅读 · 0 评论 -
Bandit:一种简单而强大的在线学习算法
假设我有5枚硬币,都是正反面不均匀的。我们玩一个游戏,每次你可以选择其中一枚硬币掷出,如果掷出正面,你将得到一百块奖励。掷硬币的次数有限(比如10000次),显然,如果要拿到最多的利益,你要做的就是尽快找出“正面概率最大”的硬币,然后就拿它赚钱了。这个问题看起来很数学化,其实它在我们的生活中经常遇见。比如我们现在有很多在线场景,遇到一个相同的问题:一个平台这么多信息,该展示什么给用户,才能转载 2017-09-12 21:23:07 · 1933 阅读 · 0 评论 -
梯度下降法、坐标下降法、牛顿迭代法
1 梯度下降法2 坐标下降法1.首先给定一个初始点,如 X_0=(x1,x2,…,xn); 2.for x_i=1:n 固定除x_i以外的其他维度 以x_i为自变量,求取使得f取得最小值的x_i; end 3. 循环执行步骤2,直到f的值不再变化或变化很小.3 牛顿迭代法牛顿迭代法(Newton’s method)又称为牛转载 2017-11-22 09:42:58 · 1615 阅读 · 0 评论 -
坐标下降法(Coordinate descent)
首先介绍一个算法:coordinate-wise minimization问题的描述:给定一个可微的凸函数,如果在某一点x,使得f(x)在每一个坐标轴上都是最小值,那么f(x)是不是一个全局的最小值。形式化的描述为:是不是对于所有的d,i都有这里的代表第i个标准基向量。答案为成立。这是因为:但是问题来了,如果对于凸函数f,若不可微转载 2017-11-22 09:50:49 · 6645 阅读 · 0 评论 -
【ML】VC dimension
VC维(Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,由统计学习理论定义的有关函数集学习性能的一个重要指标。传统的定义是:对一个指标函数集,如果存在H 个样本能够被函数集中的函数按所有可能的2的K次方种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。若对任意数 目的样本都有函数能将它们打散,则转载 2017-12-10 11:04:19 · 1271 阅读 · 0 评论 -
评价Logistic回归模型优劣的两个重要参数AIC和BIC
赤池信息量准则,即Akaike information criterion、简称AIC,是衡量统计模型拟合优良性的一种标准,是由日本统计学家赤池弘次创立和发展的。赤池信息量准则建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。优先考虑的模型应是AIC值最小的那一个。 贝叶斯信息准则,BIC= Bayesian Information Criterions转载 2017-12-16 21:13:47 · 24735 阅读 · 0 评论 -
理解赤池信息量(AIC),贝叶斯信息量(BIC)
一、基本概念模型选择主要有两个思路: 1.解释性框架 在已有数据下,重点关注哪些变量是模型的重要变量,模型的形式应该怎样。好的模型应该是最能解释现有数据的模型。 2.预测性框架 重点关注哪些变量是模型的潜在变量以及模型的可能形式。好的模型应该是最能预测结果的模型。AIC: Akaike information criterion,赤池信息量。 BIC:Bayes转载 2017-12-16 21:14:56 · 7420 阅读 · 0 评论 -
RBF高斯径向基核函数
RBF高斯径向基核函数(单值:两个点相似性)XVec表示X向量。||XVec||表示向量长度。r表示两点距离。r^2表示r的平方。k(XVec,YVec) = exp(-1/(2*sigma^2)*(r^2)) = exp(-gamma*r^2) ...... 公式-1这里, gamma=1/(2*sigma^2)是参数, r=||XVec-YV转载 2018-01-30 17:40:26 · 10320 阅读 · 2 评论 -
支持向量机(SVM)算法的matlab的实现
支持向量机是一种分类算法之一,matlab中也有相应的函数来对其进行求解;下面贴一个小例子,这个例子来源于我们实际的项目。clc;clear;N=10;%下面的数据是我们实际项目中的训练样例(样例中有8个属性)correctData=[0,0.2,0.8,0,0,0,2,2];errorData_ReversePharse=[1,0.8,0.2,1,0,0,2,2];errorDa转载 2018-01-30 20:24:21 · 8717 阅读 · 1 评论 -
关于矩阵的归一化
最近在看Yang大牛稀疏表示论文的代码,发现里面很多的操作的用到了矩阵的列归一化,这里谈一谈列归一化的实现,以及其带来的好处。矩阵的列归一化,就是将矩阵每一列的值,除以每一列所有元素平方和的绝对值,这样做的结果就是,矩阵每一列元素的平方和为1了。举个例子,矩阵[1,2,3]',将其归一化的结果就是[0.2673,0.5345,0.8018]。其平方和就为1了。Yang在代码中,将那些平方和为0,以...转载 2018-05-03 21:00:17 · 12293 阅读 · 2 评论 -
机器学习——标准化/归一化的目的、作用和场景
(一)归一化的作用在机器学习领域中,不同评价指标(即特征向量中的不同特征就是所述的不同评价指标)往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。其中,最典型的就是数据的归一化处理。(可以参考学习:数据标准化/归一化)简而言之,归一...转载 2018-05-04 17:37:20 · 13309 阅读 · 1 评论 -
坐标下降与梯度下降
本文是对坐标上升、坐标下降及梯度下降的关系的个人总结,欢迎大家讨论。1.坐标上升法:坐标上升与坐标下降可以看做是一对,坐标上升是用来求解max最优化问题,坐标下降用于求min最优化问题,但是两者的执行步骤类似,执行原理相同。例如要求接一个max_f(x1,x2,...,xn)的问题,其中各个xi是自变量,如果应用坐标上升法求解,其执行步骤就是:1.首先给定一个初转载 2017-09-06 15:57:50 · 3605 阅读 · 0 评论 -
LLE算法
Locally linear embedding (LLE) (Sam T.Roweis and Lawrence K.Saul, 2000)以及Supervised locally linear embedding (SLLE) (Dick and Robert, 2002) 是最近提出的非线性降维方法,它能够使降维后的数据保持原有拓扑结构。 LLE算法可以有图1所示的一个例子来描述转载 2017-08-02 17:17:11 · 3329 阅读 · 0 评论 -
机器学习降维算法二:LDA(Linear Discriminant Analysis)
额距离上一篇blog已经有很长的时间了,之前一直在忙着做一个工作,最近告一段落,还是要写blog啊!很多基础知识有些遗忘了,也算作是一种复习。我尽量推导的关键的地方写写,建议大家还是要手动推一推公式增加理解。 Linear Discriminant Analysis (也有叫做Fisher Linear Discriminant)是一种有监督的(supervised)线性降维算法。转载 2017-08-02 17:14:05 · 1101 阅读 · 0 评论 -
softmax回归
原文地址在上一篇文章中,讲述了广义线性模型。通过详细的讲解,针对某类指数分布族建立对应的广义线性模型。在本篇文章中,将继续来探讨广义线性模型的一个重要例子,它可以看成是Logistic回归的扩展,即softmax回归。 我们知道Logistic回归只能进行二分类,因为它的随机变量的取值只能是0或者1,那么如果我们面对多分类问题怎么办?比如要将一封新收到的邮件转载 2017-04-08 16:49:34 · 484 阅读 · 0 评论 -
xgboost特征选择
Xgboost在各大数据挖掘比赛中是一个大杀器,往往可以取得比其他各种机器学习算法更好的效果。数据预处理,特征工程,调参对Xgboost的效果有着非常重要的影响。这里介绍一下运用xgboost的特征选择,运用xgboost的特征选择可以筛选出更加有效的特征代入Xgboost模型。这里采用的数据集来自于Kaggle | Allstate Claims Severity比赛,这里的转载 2017-05-17 13:45:03 · 4529 阅读 · 0 评论 -
kaggle数据挖掘竞赛初步--Titanic<数据变换>,kaggle--titanic
kaggle数据挖掘竞赛初步--Titanic,kaggle--titanic完整代码: https://github.com/cindycindyhi/kaggle-Titanic特征工程系列:Titanic系列之原始数据分析和数据处理Titanic系列之数据变换Titanic系列之派生属性&维归约缺失值填充之后,就要对其他格式有问题的属性进行转载 2017-05-17 13:47:21 · 926 阅读 · 0 评论 -
XGBoost-Python完全调参指南-参数解释篇
原文:在analytics vidhya上看到一篇Python>,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/转载 2017-05-17 20:47:03 · 427 阅读 · 0 评论 -
LIBSVM与LIBLINEAR(二)
原文地址模型与优化LIBSVM和LIBLINEAR都提供了多种不同的模型供使用者选择,不同的模型有各自适用的场景。下面分别介绍LIBSVM和LIBLINEAR所提供的各种模型。LIBSVM下面是LIBSVM帮助内容提供的介绍,给出了LIBSVM支持的5种模型。其中模型0和1对应的都是SVM的分类模型,2对应的是one-class分类器,也就是只需要标注一个标签,模型转载 2017-05-27 21:25:18 · 386 阅读 · 0 评论 -
数据科学入门,使用 xgboost 初试 kaggle
kaggle 目前是散兵游勇使用真实数据进行机器学习实践的最佳场所,拥有真实的数据和大量有经验的参赛者,以及良好的讨论共享氛围。基于树的 boosting/ensemble 方法在实战中取得良好效果,陈天奇提供的高质量的算法实现 xgboost 也使得构建基于该方法的解决方案更加容易高效,很多比赛的获胜方案都使用了 xgboost 。本文记录一个从零开始到最终用 xgboost转载 2017-05-30 16:44:18 · 2312 阅读 · 0 评论 -
xgboost入门与实战(实战调参篇) 标签: xgboostpythonkaggle机器学习
xgboost入门与实战(实战调参篇)原文地址前言前面几篇博文都在学习原理知识,是时候上数据上模型跑一跑了。本文用的数据来自kaggle,相信搞机器学习的同学们都知道它,kaggle上有几个老题目一直开放,适合给新手练级,上面还有很多老司机的方案共享以及讨论,非常方便新手入门。这次用的数据是Classify handwritten digits using the famo转载 2017-05-30 21:47:34 · 10314 阅读 · 1 评论 -
Kaggle实战(二)
原文地址上一篇都是针对小数据集的,入门不建议从大数据集开始,可以不用考虑机器内存,不用out-of-core的online learning,不用考虑分布式,可以专注模型本身。接下来我做了两个广告CTR预估相关的比赛,不过比赛当时都已经closed了,还好,我们还可以提交结果看看close时能排到的位置。比赛实战6. Display Advertising ChallengeP转载 2017-06-02 11:37:09 · 2843 阅读 · 2 评论 -
机器学习简易入门(四)- logistic回归
摘要:使用logistic回归来预测某个人的入学申请是否会被接受声明:(本文的内容非原创,但经过本人翻译和总结而来,转载请注明出处)本文内容来源:https://www.dataquest.io/mission/59/logistic-regression 原始数据展示这是一份美国入学申请的录取记录表,admit – 是否录取,1代表录取,0代表否定;gpa转载 2017-06-03 16:37:29 · 597 阅读 · 0 评论 -
机器学习算法与Python实践之(六)二分k均值聚类
zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习算法与python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 在上一个博转载 2017-07-15 21:31:05 · 545 阅读 · 0 评论 -
逻辑回归 和 朴素贝叶斯 两者间的区别
在有监督学习算法用做分类问题时,有两种算法在实际中应用广泛,它们分别是Logistic regression和Naive bayes。今天我们讨论一下这两类算法在分类问题上面的异同点,以及它们的优缺点。1.两类算法介绍 Logistic RegressionNaive BayesNaive Bayes模型是说我有一个很强的假设,这个假设是转载 2017-07-20 09:37:20 · 2790 阅读 · 0 评论 -
机器学习降维算法四:Laplacian Eigenmaps 拉普拉斯特征映射
原创书写,转载请注明此文出自:http://www.cnblogs.com/xbinworld,http://blog.csdn.net/xbinworld Laplacian Eigenmaps 继续写一点经典的降维算法,前面介绍了PCA,LDA,LLE,这里讲一讲Laplacian Eigenmaps。其实不是说每一个算法都比前面的好,而是每一个算法都是从不同角度去看问题,因此转载 2017-08-02 17:05:13 · 2242 阅读 · 0 评论 -
机器学习降维算法一:PCA(主成分分析算法)
引言:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据,也有一些降维算法转载 2017-08-02 17:09:22 · 1043 阅读 · 0 评论 -
非常见降维方法:Laplacian Eigenmaps 拉普拉斯特征映射
原文地址拉普拉斯矩阵Laplacian matrix 的定义谈到机器学习中的降维技术,可能大多数了解一点机器学习的朋友都知道PCA,今天为大家介绍一种新的降维方法——拉普拉斯特征映射拉普拉斯矩阵(Laplacian matrix)),也称为基尔霍夫矩阵, 是表示图的一种矩阵。给定一个有n个顶点的图G=(V,E) ,其拉普拉斯矩阵被定义为:L=D-W其中D为图转载 2017-08-02 17:11:23 · 1875 阅读 · 0 评论 -
机器学习(6) MovieLens数据集
MovieLens数据集是一个关于电影评分的数据集,里面包含了从IMDB, The Movie DataBase上面得到的用户对电影的评分信息,详细请看下面的介绍。介绍:links.csv:文件里面的内容是帮助你如何通过网站id在对应网站上找到对应的电影链接的。数据格式如下: movieId, imdbId, tmdbId movieId:表示这部电影在movielens上的id,可以通...转载 2018-12-12 14:40:17 · 1379 阅读 · 0 评论