数据挖掘
知之可否
这个作者很懒,什么都没留下…
展开
-
XGBoost浅入浅出
转自 http://wepon.me/2016/05/07/XGBoost%E6%B5%85%E5%85%A5%E6%B5%85%E5%87%BA/XGBoost风靡Kaggle、天池、DataCastle、Kesci等国内外数据竞赛平台,是比赛夺冠的必备大杀器。我在之前参加过的一些比赛中,着实领略了其威力,也取得不少好成绩。如果把数据竞赛比作金庸笔下的武林,那么XGBoost转载 2017-03-13 22:36:56 · 3617 阅读 · 0 评论 -
所涉及到的几种 sklearn 的二值化编码函数:OneHotEncoder(), LabelEncoder(), LabelBinarizer(), MultiLabelBinarizer()
转自http://blog.csdn.net/haramshen/article/details/53169963所涉及到的几种 sklearn 的二值化编码函数:OneHotEncoder(), LabelEncoder(), LabelBinarizer(), MultiLabelBinarizer()1.代码块import pandas as pdfrom sklear转载 2017-02-14 11:43:25 · 11947 阅读 · 1 评论 -
时间序列分析之ARIMA模型预测__R篇
转自http://www.cnblogs.com/bicoffee/p/3838049.html之前一直用SAS做ARIMA模型预测,今天尝试用了一下R,发现灵活度更高,结果输出也更直观。现在记录一下如何用R分析ARIMA模型。 1. 处理数据1.1. 导入forecast包forecast包是一个封装的ARIMA统计软件包,在默认情况下,R没有预装fore转载 2017-01-20 10:24:19 · 19853 阅读 · 3 评论 -
Arima预测模型(R语言)
转自 http://blog.csdn.net/desilting/article/details/39013825#commentsARIMA(p,d,q)模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),AR是自回归, p为自回归项; MA为移动平均,q为移动平均项数,d为时转载 2017-01-19 11:01:18 · 8155 阅读 · 1 评论 -
时间序列分析之ARIMA模型预测
转载自 http://blog.sina.com.cn/s/blog_70f632090101bnd8.html#cmt_3111974今天学习ARIMA预测时间序列。 指数平滑法对于预测来说是非常有帮助的,而且它对时间序列上面连续的值之间相关性没有要求。但是,如果你想使用指数平滑法计算出预测区间, 那么预测误差必须是不相关的, 而且必须是服从零均值、 方差不变的正态分布。即使转载 2017-01-12 17:45:37 · 63335 阅读 · 1 评论 -
sklearn 中的 Pipeline 机制
管道机制在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pipelines)。注意:管道机制更像是编程技巧的创新,而非算法的创新。接下来我们以一个具体的例子来演示sklearn库中强大的Pipeline用法:1. 加载数据集from pa转载 2017-01-09 22:41:23 · 1285 阅读 · 0 评论 -
斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感
近日,在网易公开课视频网站上看完了《机器学习》课程视频,现做个学后感,也叫观后感吧。 学习时间 从2013年7月26日星期五开始,在网易公开课视频网站上,观看由斯坦福大学Andrew Ng教授主讲的计算机系课程(编号CS229)《机器学习》(网址http://v.163.com/special/opencourse/machinelearning.html)(注:最早是在新浪公开课上转载 2016-10-15 13:55:59 · 719 阅读 · 1 评论 -
图像旋转算法与实现
好吧,先下个定义,图像旋转是指图像以某一点为中心旋转一定的角度,形成一幅新的图像的过程。当然这个点通常就是图像的中心。既然是按照中心旋转,自然会有这样一个属性:旋转前和旋转后的点离中心的位置不变.根据这个属性,我们可以得到旋转后的点的坐标与原坐标的对应关系。由于原图像的坐标是以左上角为原点的,所以我们先把坐标转换为以图像中心为原点。假设原图像的宽为w,高为h,(x0,y0)为原坐标内的一点转载 2016-07-26 23:07:09 · 698 阅读 · 0 评论 -
[转载]图像缩放的双线性内插值算法的原理解析【转】
越是简单的模型越适合用来举例子,我们就举个简单的图像:3X3 的256级灰度图,也就是高为3个象素,宽也是3个象素的图像,每个象素的取值可以是 0-255,代表该像素的亮度,255代表最亮,也就是白色,0代表最暗,即黑色 。假如图像的象素矩阵如下图所示(这个原始图把它叫做源图,Source):234 38 2267 44 1289 65 63转载 2016-07-26 23:00:18 · 379 阅读 · 0 评论 -
2、决策树ID3、C4.5、CART
决策树1、决策树概念决策树(decision tree)也称为分类树(分类)或者回归树(数值预测)。是一种有监督的机器学习算法,是一个分类算法。在给定训练集的条件下,生成一个自顶而下的决策树,树的根为起点,树的叶子为样本的分类,从根到叶子的路径就是一个样本进行分类的过程。 决策树(decision tree):是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测转载 2016-08-30 22:18:11 · 2007 阅读 · 0 评论 -
LDA数学原理及优缺点
线性判别分析(Linear Discriminant Analysis,LDA),也称线性判别法,是由Fisher于1936年提出。基本思想和原理:通常是指在输入变量上构造线性判别函数的方法,但是它也可以寻求一种变换,使得在某种意义下类间分离性最大,类内分离性最小或相异性最小。原理:将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,转载 2017-03-09 17:09:06 · 12741 阅读 · 2 评论 -
梯度下降法的三种形式BGD、SGD以及MBGD
转自 http://www.cnblogs.com/maybe2030/p/5089753.html#top阅读目录1. 批量梯度下降法BGD2. 随机梯度下降法SGD3. 小批量梯度下降法MBGD4. 总结 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点转载 2017-03-13 16:31:49 · 609 阅读 · 0 评论 -
LR与SVM的异同
转自 http://www.cnblogs.com/zhizhan/p/5038747.html在大大小小的面试过程中,多次被问及这个问题:“请说一下逻辑回归(LR)和支持向量机(SVM)之间的相同点和不同点”。第一次被问到这个问题的时候,含含糊糊地说了一些,大多不在点子上,后来被问得多了,慢慢也就理解得更清楚了,所以现在整理一下,希望对以后面试机器学习方向的同学有所帮助(至少转载 2017-03-13 16:12:36 · 1101 阅读 · 0 评论 -
svm常用核函数
转自 http://blog.csdn.net/batuwuhanpei/article/details/52354822SVM核函数的选择对于其性能的表现有至关重要的作用,尤其是针对那些线性不可分的数据,因此核函数的选择在SVM算法中就显得至关重要。对于核技巧我们知道,其目的是希望通过将输入空间内线性不可分的数据映射到一个高纬的特征空间内使得数据在特征空间内是可分的,我们定义这种映射为ϕ转载 2017-03-12 12:22:02 · 1449 阅读 · 0 评论 -
svm 问题整理
1、为什么要选择最大间隔分类器,请从数学角度上说明? 答:几何间隔与样本的误分次数间存在关系: 其中的分母就是样本到分类间隔距离,分子中的R是所有样本中的最长向量值2、样本失衡会对SVM的结果产生影响吗? 答:会,超平面会靠近样本少的类别。因为使用的是软间隔分类,而如果对所有类别都是使用同样的惩罚系数, 则由于转载 2017-03-11 22:41:21 · 3617 阅读 · 0 评论 -
SVM多类分类方法
http://blog.sina.com.cn/s/blog_5eef0840010147pa.htmlSVM多类分类方法的实现根据其指导思想大致有两种:(1)将多类问题分解为一系列SVM可直接求解的两类问题,基于这一系列SVM求解结果得出最终判别结果。(2)通过对前面所述支持向量分类机中的原始最优化问题的适当改变,使得它能同时计算出所有多类分类决策函数,从而“一次性”转载 2017-03-12 11:46:00 · 729 阅读 · 0 评论 -
为什么一些机器学习模型需要对数据进行归一化?
http://www.cnblogs.com/LBSer/p/4440590.html 机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?很多同学并未搞清楚,维基百科给出的解释:1)归一化后加快了梯度下转载 2017-03-12 11:36:01 · 1093 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
转自 http://blog.csdn.net/w28971023/article/details/8240756#comments在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regre转载 2017-03-07 20:25:31 · 314 阅读 · 0 评论 -
[Machine Learning & Algorithm] 随机森林(Random Forest)
转自 http://www.cnblogs.com/maybe2030/p/4585705.html#top阅读目录1 什么是随机森林?2 随机森林的特点3 随机森林的相关基础知识4 随机森林的生成5 袋外错误率(oob error)6 随机森林工作原理解释的一个简单例子7 随机森林的Python实现8 参考内容回到顶部转载 2017-03-07 19:30:46 · 483 阅读 · 0 评论 -
谱聚类算法详解
转自 http://blog.csdn.net/jteng/article/details/49590069 谱聚类(Spectral Clustering)算法简单易行,其聚类性能优于传统的K-means算法。谱聚类将数据的划分转化为对图的分割,是一种基于图论的聚类方法,其直观理解为根据图内点的相似度将图分为多个子图,使子图内部的点相似度最高,子图之间点的相似度最低。转载 2017-03-20 10:12:54 · 2140 阅读 · 0 评论 -
高斯模糊的算法
作者: 阮一峰日期: 2012年11月14日通常,图像处理软件会提供"模糊"(blur)滤镜,使图片产生模糊的效果。"模糊"的算法有很多种,其中有一种叫做"高斯模糊"(Gaussian Blur)。它将正态分布(又名"高斯分布")用于图像处理。本文介绍"高斯模糊"的算法,你会看到这是一个非常简单易懂的算法。本质上,它是一种数据平滑技术(dat转载 2016-05-15 17:42:39 · 535 阅读 · 0 评论 -
泊松分布和幂律分布 转
泊松分布和幂律分布 自然界与社会生活中,许多科学家感兴趣的事件往往都有一个典型的规模,个体的尺度在这一特征尺度附近变化很小。比如说人的身高,中国成年男子的身高绝大多数都在平均值1.70米左右,当然地域不同,这一数值会有一定的变化,但无论怎样,我们从未在大街上见过身高低于10厘米的“小矮人”,或高于10米的“巨人”。如果我们以身高为横坐标,以取得此身高的人数或概率为纵坐标,可绘出一条钟形分布曲线(如转载 2015-09-12 11:35:43 · 8681 阅读 · 0 评论 -
argmin,argmax
ARG MIN的含义是什么? 最通俗的理解:表示使目标函数取最小值时的变量值 http://blog.csdn.net/xuehuic/article/details/7325666转载 2015-03-10 19:34:32 · 13439 阅读 · 0 评论 -
KL Divergence KL散度
在概率论或信息论中,KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy),是描述两个概率分布P和Q差异的一种方法。它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。 有人将KL散度称为KL距离,但事实原创 2015-03-09 22:38:39 · 23462 阅读 · 2 评论 -
Normalized Cut(归一化割)
所谓Clustering,就是说聚类,把一堆东西(合理地)分成两份或者K份。从数学上来说, 聚类的问题就相当于Graph Partition的问题,即给定一个图G = (V, E),如何把它的顶点集划分为不相交的子集, 使得这种划分最好。其难点主要有两个: 1. 这个“合理”其实相当难达到,随便设一个目标函数可能达不到希望的结果。大家可以看了看[1],这里详细地讨论了一下准则的选择问题。 2转载 2015-03-04 20:15:30 · 23322 阅读 · 3 评论 -
生成模型与判别模型
一直在看论文的过程中遇到这个问题,折腾了不少时间,然后是下面的一点理解,不知道正确否。若有错误,还望各位前辈不吝指正,以免小弟一错再错。在此谢过。一、决策函数Y=f(X)或者条件概率分布P(Y|X) 监督学习的任务就是从数据中学习一个模型(也叫分类器),应用这一模型,对给定的输入X预测相应的输出Y。这个模型的一般形式为决策函数Y=f(X)或者条件概率分布P(Y|X)。 决策函数Y=f(X):转载 2015-03-02 20:15:13 · 734 阅读 · 0 评论 -
核密度估计、混合模型,潜变量和EM算法(mixture model,latent variable and EM algorithm)
转载至http://site.douban.com/182577/widget/notes/10567212/note/268993165/1.从核密度估计到混合模型从一个例子开始。间歇泉”老忠实”(http://en.wikipedia.org/wiki/Old_Faithful) 是美国黄石公园里著名景点。数据集geyser (package MASS)记录了它转载 2015-03-02 15:57:31 · 6223 阅读 · 3 评论 -
什么是启发式算法(转)
这两天在看关于民航调度的文章,很多文章中都提到“启发式”算法,感觉和智能算法类似,那到底什么是启发式算法呢?我找到如下的一些我认为比较好的解释:A heuristic (hyu-‘ris-tik) is the art and science of discovery and invention. The word comes from the same Greek root as “eureka”转载 2015-03-23 15:38:18 · 14921 阅读 · 0 评论 -
Normalized Mutual Information归一化互信息
Normalized Mutual Information(NMI)常用在聚类中,度量2个聚类结果的相近程度。 其中I(A,B)是A,B两向量的mutual information, H(A)是A向量的信息熵。 I(A,B)=H(A)-H(A|B)=H(B)-H(B|A),这也好理解,直觉上,如果已知B的情况,A的条件熵H(B|A)相对于H(A)变小了,即不确定程度变小,那么B能提供对原创 2015-03-17 15:52:19 · 24207 阅读 · 1 评论 -
Modularity(模块性)
Modularity也是一种非常有名的衡量社区划分质量的度量方式。 公式是 其中 是社区边的两个顶点都在社区Cck中的比例,公式后面一项表示表示边至少有一个顶点在社区Cck中的比例。与归一化割不同,高的模块性表示社区内部链接密度高,之间稀疏。模块性的缺点:偏向大的社区。原创 2015-03-04 21:01:30 · 11323 阅读 · 0 评论 -
CFinder
介绍在:http://cfinder.org/ 发表在Nature上。 将网络划分为有重叠的社区。 k-clique原创 2015-04-24 10:49:07 · 2928 阅读 · 0 评论 -
Ensemble Approaches分类技术
所谓ensemble learning,简单来说,是指综合多种基础模型或弱分类器来完成最终的决策的机器学习方法。Bagging和Boosting(之前所提到的Adaboost)都属于这类方法。http://www.cnblogs.com/wei-li/p/2574565.html转载 2015-04-04 15:37:09 · 942 阅读 · 0 评论 -
Bootstrap Method
一、Bootstrap 非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:[1] (1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。 (2)根据抽出的样本计算给定的统计量T。 (3)重复上述N次(一般大于1000),得到N个统计量T。 (4)计算上述N个统计量T的样本方差,得到统计量的方差。 应该说B原创 2015-04-03 10:47:42 · 13408 阅读 · 0 评论 -
马氏距离(Mahalanobis距离)
马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 维基百科的解释: http://zh.wikipedia.转载 2015-03-23 15:58:03 · 4370 阅读 · 0 评论 -
参数模型和非参数模型的区别
参数与非参数模型 用代数方程、微分方程、微分方程组以及传递函数等描述的模型都是参数模型。建立参数模型就在于确定已知模型结构中的各个参数。通过理论分析总是得出参数模型。非参数模型是直接或间接地从实际系统的实验分析中得到的响应,例如通过实验记录到的系统脉冲响应或阶跃响应就是非参数模型。运用各种系统辨识的方法,可由非参数模型得到参数模型。如果实验前可以决定系统的结构,则通过实验辨识可以直接得到参数模型。原创 2015-03-01 15:17:57 · 19656 阅读 · 0 评论