机器学习
文章平均质量分 90
Modozil
这个作者很懒,什么都没留下…
展开
-
AdaBoost和随机森林的区别
AdaBoost首先明确一个大方向:强可学习和弱可学习是等价的。所以,弱可学习方法可以提升为强可学习方法。AdaBoost最具代表性。对于提升方法,有两个问题需要回答:每一轮如何改变训练数据的权值或概率分布?如何将弱分类器组合成一个强分类器?AdaBoost的做法:提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。加权多数表决的方法,加大分类误差率小的弱分类器的权转载 2017-01-11 19:30:21 · 4846 阅读 · 0 评论 -
随机森林与GBDT
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy 前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树转载 2017-08-07 16:05:54 · 348 阅读 · 0 评论 -
梯度下降的原理(泰勒证明)及与牛顿法的对比
转载来源于梯度下降法与牛顿法的解释与对比 - happy_lion - 博客园1 梯度下降法我们使用梯度下降法是为了求目标函数最小值f(X)对应的X,那么我们怎么求最小值点x呢?注意我们的X不一定是一维的,可以是多维的,是一个向量。我们先把f(x)进行泰勒展开: 这里的α是学习速率,是个标量,代表X变化的幅度;d表示的是单位步长,是一个矢量,有方向,单位长度为1,代表X变化的方向。什么意思呢?转载 2017-08-07 21:58:00 · 6276 阅读 · 1 评论 -
GBDT的小结(来自论文greedy function approximation: a gradient boosting machine)
Gradient Boosting Decision Tree,即梯度提升树,简称GBDT,也叫GBRT(Gradient Boosting Regression Tree),也称为Multiple Additive Regression Tree(MART),阿里貌似叫treelink。首先学习GBDT要有决策树的先验知识。Gradient Boosting Decision Tree,和随机转载 2017-08-08 17:40:49 · 18333 阅读 · 2 评论 -
GBDT决策树入门教程
本文转载于:苏冉旭的博客 http://blog.csdn.net/suranxu007/GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalizati转载 2017-08-08 17:55:28 · 478 阅读 · 0 评论 -
python库matplotlib中线条的颜色及样式
转载请注明出处:http://www.cnblogs.com/darkknightzh/p/6117528.html参考网址:http://stackoverflow.com/questions/22408237/named-colors-in-matplotlibhttp://stackoverflow.com/questions/8409095/matplotlib-set-marker转载 2017-08-02 13:59:49 · 9583 阅读 · 0 评论 -
机器学习和深度学习提问题的好地方
https://stats.stackexchange.com/https://stackoverflow.com/questions/32514704/keras-lstm-time-series原创 2017-08-02 21:09:25 · 328 阅读 · 0 评论 -
Pandas中iloc和loc以及ix的区别
import pandas as pdimport numpy as npa = np.arange(12).reshape(3,4)print adf = pd.DataFrame(a)print df原创 2017-08-03 21:05:59 · 11885 阅读 · 2 评论 -
Pandas数据基础(索引、排序、连接、去重、分箱、异常处理)
原文地址:http://kekefund.com/2016/02/23/pandas-anlysis-basic/使用pandas,首先导入包:from pandas import Series, DataFrameimport pandas as pd123123一、创建Series,DataFrame1,创建Seriesa,通过列表创建obj = Series([4, 7, -5, 3])转载 2017-08-11 19:31:38 · 10848 阅读 · 1 评论 -
机器学习绘图(numpy和matplotlib库)
yuanwen: http://blog.csdn.net/crossky_jing/article/details/49466127scikit-learn 练习题 题目:Try classifying classes 1 and 2 from the iris dataset with SVMs, with the 2 first features. Leave out 10% of each转载 2017-08-12 13:46:59 · 862 阅读 · 0 评论 -
Python 数据处理—12 个Pandas 技巧(上下)
http://datartisan.com/article/detail/81.html导语Python正迅速成为数据科学家偏爱的语言,这合情合理。它拥有作为一种编程语言广阔的生态环境以及众多优秀的科学计算库。如果你刚开始学习python,可以先了解一下Python的学习路线。在众多的科学计算库中,我认为Pandas对数据科学运算最有用。Pandas,加上Scikit-learn几乎能构成了数转载 2017-08-13 13:30:03 · 3926 阅读 · 0 评论 -
利用pandas进行数据预处理
目录: 1.安装pandas 2.pandas的引入 3.数据清洗 ①处理缺失数据 ②检测和过滤异常值 ③移除重复数据 4.数据集成转载 2017-08-13 13:36:03 · 1164 阅读 · 0 评论 -
PCA原理
PCA方法是数据降维的重要手段之一,方法比较简单,就是将样本数据求一个维度的协方差矩阵,然后求解这个协方差矩阵的特征值和对应的特征向量,将这些特征向量按照对应的特征值从大到小排列,组成新的矩阵,被称为特征向量矩阵,也可以称为投影矩阵,然后用改投影矩阵将样本数据转换。取前K维数据即可,实现对数据的降维。 假设样本数据有r维(组成一个r维向量),共有n个样本。组成r*n矩阵A,矩阵每一转载 2017-08-20 18:08:51 · 1073 阅读 · 0 评论 -
矩阵求导
本文转载于http://xuehy.github.io/2014/04/18/2014-04-18-matrixcalc/Table of Contents1. 布局(Layout)2. 基本的求导规则(定义)3. 维度分析4. 标量对矩阵求导(微分形式)—矩阵求导,想必许多领域能见到。统计学,经济学,优化,机器学习等等,在对目标问题建立数学模型之后,问转载 2017-08-13 21:04:05 · 1323 阅读 · 0 评论 -
谱聚类原理
本文转载于http://blog.csdn.net/betarun/article/details/51154003这方法是昨天听同学提起的,大致翻看了几篇博客跟论文,这里写下自己的理解从样本相似性到图根据我们一般的理解,聚类是将相似的样本归为一类,或者说使得同类样本相似度尽量高,异类样本相似性尽量低。无论如何,我们需要一个方式度量样本间的相似性。常用的方式就是引入各种度量,如欧氏距离转载 2017-08-21 21:15:59 · 1081 阅读 · 0 评论 -
谱聚类原理总结-by刘建平大神
本文转载于http://www.cnblogs.com/pinard/p/6221564.html 谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就转载 2017-08-21 21:40:28 · 3158 阅读 · 0 评论 -
从协方差矩阵角度看PCA
本文转载于http://pinkyjie.com/2011/02/24/covariance-pca/自从上次谈了协方差矩阵之后,感觉写这种科普性文章还不错,那我就再谈一把协方差矩阵吧。上次那篇文章在理论层次介绍了下协方差矩阵,没准很多人觉得这东西用处不大,其实协方差矩阵在好多学科里都有很重要的作用,比如多维的正态分布,再比如今天我们今天的主角——主成分分析(Principal Compone转载 2017-08-22 15:59:57 · 1013 阅读 · 0 评论 -
高偏差/低偏差,学习曲线,模型选择
Andrew Ng cs229 Machine Learning 笔记原文:https://share.coursera.org/wiki/index.php/ML:Advice_for_Applying_Machine_Learning面对一个机器学习问题,我们提取好特征,挑选好训练集,选择一种机器学习算法,然后学习预测得到了第一步结果。然而我们不幸地发现,在测试集上的准确率低得离谱,误差高得吓人转载 2017-07-03 22:18:29 · 2954 阅读 · 0 评论 -
向量的表示、投影、变换、协方差矩阵及PCA
引言当面对的数据被抽象为一组向量,那么有必要研究一些向量的数学性质。而这些数学性质将成为PCA的理论基础。理论描述向量运算即:内积。首先,定义两个维数相同的向量的内积为:(a1,a2,⋯,an)T⋅(b1,b2,⋯,bn)T=a1b1+a2b2+⋯+anbn内积运算将两个向量映射为一个实数。其计算方式非常容易理解,但是其意义并不明显。所以,我们分析内积的几何意义。假设A和B是两个n维向量,我们知道n转载 2017-06-21 16:05:29 · 5542 阅读 · 1 评论 -
拉格朗日乘数法(等式约束和不等式约束)及KKT条件
拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。前提是:只有当目标函数为凸函数时,使用这两种方法才保证求得的是最优解。对于无约束最优化问题,有很多经典的求解方法,参见无约束最优化方法。拉格朗日乘子法先来看拉格朗日乘子法是什么,再讲为什么。minf(转载 2017-04-23 14:23:58 · 19815 阅读 · 4 评论 -
从机器学习谈起
原文出处: 计算机的潜意识在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以转载 2017-01-07 18:55:55 · 498 阅读 · 0 评论 -
运用神经网络方法找寻集成学习中的最优权重
简介众所周知,如今在众多数据科学竞赛中的获奖方案中,使用集成学习算法已然成为了家常便饭。集成学习独有的依据一系列假设对大量机器学习算法进行训练的能力,不仅增加了模型的稳定性,同时也使得模型的精确程度得到了较高的提升。在此之前,如果你对集成学习还是没有什么印象的话,之前推送的文章《关于集成学习基础的简单描述》或许会对你有所帮助。话说回来,在构建集成模型时,如何找到最佳的权重往往是人们面临的常见挑战之一转载 2017-01-11 20:00:19 · 1619 阅读 · 0 评论 -
CART分类回归树
**本文转载于http://blog.csdn.net/acdreamers/article/details/44664481**在之前介绍过决策树的ID3算法实现,今天主要来介绍决策树的另一种实现,即CART算法。 Contents 1. CART算法的认识 2. CART算法的原理 3. CART算法的实现 1. CART算法的认识 Classifi转载 2017-02-19 21:15:08 · 776 阅读 · 0 评论 -
梯度下降优化算法综述
梯度下降优化算法综述 该文转载来源于http://blog.csdn.net/heyongluoyao8/article/details/52478715 该文翻译自An overview of gradient descent optimization algorithms。 总所周知,梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法。几乎当前每一转载 2017-02-18 18:34:21 · 3125 阅读 · 0 评论 -
CART决策树
一、决策树的类型 在数据挖掘中,决策树主要有两种类型:分类树 的输出是样本的类标。回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出.分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。分类回归树(CART,Classification And Regression Tree)也属于一转载 2017-02-20 16:42:59 · 790 阅读 · 0 评论 -
CART分类与回归树
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 前言分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1转载 2017-02-20 19:34:56 · 401 阅读 · 0 评论 -
matplotlib学习之设置线条颜色、形状
本文是学习《matplotlib for python developers》的一点笔记plot画图时可以设定线条参数。包括:颜色、线型、标记风格。1)控制颜色颜色之间的对应关系为b—blue c—cyan g—green k—-blackm—magenta r—red w—white y—-yellow有三种表示颜色的方式:a:用全名 b:16进制如:#FF00转载 2017-01-22 16:52:49 · 3798 阅读 · 0 评论 -
DTW距离,时间序列之间的距离
在日常的生活中我们最经常使用的距离毫无疑问应该是欧式距离,但是对于一些特殊情况,欧氏距离存在着其很明显的缺陷,比如说时间序列,举个比较简单的例子,序列A:1,1,1,10,2,3,序列B:1,1,1,2,10,3,如果用欧氏距离,也就是distance[i][j]=(b[j]-a[i])*(b[j]-a[i])来计算的话,总的距离和应该是128,应该说这个距离是非常大的,而实际上这个序列的图像是十分转载 2017-02-01 17:02:22 · 12021 阅读 · 0 评论 -
DTW动态规划调整
DTW是一种衡量两个时间序列之间的相似度的方法,主要应用在语音识别领域来识别两段语音是否表示同一个单词。1 DTW方法原理 在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在语音识别领域表现为不同人的语速不同。而且同一个单词内的不同音素的发音速度也不同,比如有的人会把‘A’这个音拖得很长,或者把‘i’发的很短。另外,不同时间序列可能仅仅存在时间轴上的位移,亦即在还原位移转载 2017-02-02 15:55:34 · 3586 阅读 · 0 评论 -
从一个实例中学习DTW算法
声明:本文为转载,出处:http://www.cnblogs.com/tornadomeet DTW为(Dynamic Time Warping,动态时间归准)的简称。应用很广,主要是在模板匹配中,比如说用在孤立词语音识别,计算机视觉中的行为识别,信息检索等中。可能大家学过这些类似的课程都看到过这个算法,公式也有几个,但是很抽象,当时看懂了但不久就会忘记,因为没有具体的实例来加深印象转载 2017-02-02 16:47:42 · 778 阅读 · 0 评论 -
k-mean控卫聚类分析
Dataset 在NBA的媒体报道,体育记者通常会集中在少数几个球员身边。为什么这个球员与其他球员不一样?使用数据挖掘可以探索这个问题。本文的数据集nba_2013.csv是2013-2014赛季的NBA球员的表现。下面是数据集的一些属性描述:player – name of the playerpos – the position of the playerg – number of ga转载 2017-02-15 17:19:55 · 646 阅读 · 0 评论 -
阿里编程题
题目:小明向他的女朋友仙仙求婚,在求婚戒指上刻了一个大大的爱心。仙仙看到爱心想考验一下小明,出了一道题。方程(x2+y2−1)2−x2y2=0,这个点在这个爱心里面的概率是多少,精确到0.1(小数点后保留一位小数,比如0.1, 0.2等)#include <iostream>#include <math.h>using namespace std;/*生成标准正态分布随机数*/double ga转载 2017-04-08 15:30:05 · 666 阅读 · 0 评论 -
C/C++生成高斯分布随机数
产生正态分布或高斯分布的三种方法: 1. 运用中心极限定理(大数定理) 1 #include 2 #include 3 4 #define NSUM 25 5 6 double gaussrand() 7 { 8 double x = 0; 9 int i;10 for(i = 0; i < NSUM; i++)11 {12转载 2017-04-08 15:32:04 · 10930 阅读 · 0 评论 -
分类与回归树(统计学习方法版)
CART是决策树的一种,主要由特征选择,树的生成和剪枝三部分组成。它主要用来处理分类和回归问题,下面对分别对其进行介绍。1、回归树:使用平方误差最小准则训练集为:D={(x1,y1), (x2,y2), …, (xn,yn)}。输出Y为连续变量,将输入划分为M个区域,分别为R1,R2,…,RM,每个区域的输出值分别为:c1,c2,…,cm则回归树模型可表示为:<font color="#dd0000原创 2017-03-26 19:35:16 · 4208 阅读 · 0 评论