数据挖掘
Tanya_girl
小分析师一枚
展开
-
用r挖掘大概流程
无意搜到一个样本,收藏一下,原文链接:R语言机器学习之caret包运用http://f.dataguru.cn/thread-478761-1-1.html(出处: 炼数成金)原创 2015-11-21 21:29:09 · 412 阅读 · 0 评论 -
r语言n折交叉验证
原文点击打开链接,只是在这里加上了注释myfuc remain cllength(x)/n个样本,也就是每个元素对应 着length(x)/n个不重复的样本 a for(i in 1:10){ #对1到10原创 2015-12-08 17:33:45 · 20466 阅读 · 2 评论 -
降维中的特征选择
在建模中第一步就是特征处理,之前用spss modeler这种集成好的软件,没有处理过维度很高的数据,上来就是数据各种图形、缺失值、噪声处理,这次接触到上千个维度,数据看了下倒是没有缺失值,用r去做逻辑回归,但是总是报错,后来发现是模型迭代次数太少,模型不稳定,需要调节参数control=list(maxit=100),但是运行很慢很慢,因此想先降低维度再建立模型吧,但是网上和书本上都是讲解各种算转载 2015-12-07 09:24:34 · 1583 阅读 · 0 评论 -
随机抽样(分层抽样)和朴素贝叶斯分类
这里用iris数据集分三层抽样install.packages("e1071");#安装朴素贝叶斯预测包install.packages("sampling")library(sampling);library(e1071);sample#无放回抽样,(数据集,抽样依据的列名,每层需要抽的观测数,有放回抽样,不加额外描述)trai原创 2016-05-20 16:17:42 · 999 阅读 · 0 评论 -
广义线性模型 R--glm函数
转载http://www.cnblogs.com/runner-ljt/转载 2016-11-25 18:52:15 · 6442 阅读 · 0 评论 -
为什么一些机器学习模型需要对数据进行归一化?
http://www.open-open.com/lib/view/open1429697131932.html转载 2016-12-01 18:15:43 · 1964 阅读 · 0 评论 -
R判断逻辑回归参数共线性
方差膨胀因子(Variance Inflation Factor,VIF):是指解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比。容忍度的倒数,VIF越大,显示共线性越严重。经验判断方法表明:当0多重共线性;当10≤VIFsetwd('C:/Users/zhangluying/Desktop/建模/数据')library(dplyr)library(pR原创 2016-12-16 22:45:31 · 6736 阅读 · 0 评论 -
筛选变量方法-IV
转发转载 2018-10-24 12:11:03 · 3690 阅读 · 0 评论 -
xgboost理解
xgboost在不断优化目标函数值,每次增加一个树都是为了使这个目标函数值下降,每增加一颗树目标函数会有所变更(复杂度,损失函数都会变化),但是具体架构不变。在单棵树内特征的分裂也是按照目标函数值是否可以降低来做分裂。知道这个再结合百度一些xgboost文章大概可以了解。...原创 2018-10-31 00:48:40 · 204 阅读 · 0 评论 -
集成学习XGBoost原理
转自:https://www.jianshu.com/p/c558d0448ac7boosting翻译过来就是提升的意思,通过研究如果将许多个弱分类器集成在一起提升为一个强分类器就是多数boosting算法所研究的内容。其中最为经典的算法就是Adaboost,gdbt,xgboost等算法,本文将从xgboost的原理出发,带大家理解boosting算法。由于xgboost是提升树模型,所以它...转载 2018-10-31 00:50:18 · 315 阅读 · 0 评论 -
R语言 caret包 findCorrelation()函数用法
在做降低维度处理时候,需要考察变量之间相关性,r语言caret包 findCorrelation()可以用来筛选与其他相关性系数强的变量并且删除。findCorrelation(x, cutoff = .90, verbose = FALSE)X是需要输入的相关系数矩阵,假如有n*n维度的相关矩阵,每个变量有n-1个相关系数(除了自己),他会对这n-1个相关系数取平均值,这样每个变量都原创 2015-12-07 11:14:39 · 6886 阅读 · 2 评论 -
用pca进行特征选择
原文地址:点击打开链接和维度灾难的作者是同一个作者,可惜只写了降低维度的这一个方法。1 简介在这篇文章中,我们讨论了主成分分析是如何工作的,以及为什么它能够作为分类的降维方法。文章末尾展示了matlab源代码。 在之前一篇文章中我们讨论了维度灾难,以及在高维空间中,分类器容易发生过拟合。因此产生了问题:应该选择和舍弃哪些特征。如果所有的特征都统计意义上翻译 2015-12-04 14:41:15 · 4407 阅读 · 0 评论 -
kaggle泰坦尼克号python和r
之前用了一阵子spss modeler,自己整了r,后来发现国内高手都用python,发现了网上两篇类似的python和r写的文章,这里加上原文链接,可以一起学习:1:python版本链接:http://blog.csdn.net/longxinchen_ml/article/details/497981392:r语言版本链接:http://blog.csdn.net/xmuecor/ar原创 2015-11-21 13:45:21 · 2392 阅读 · 0 评论 -
随机森林建模
在看datacastle的建模大赛,用r写了随机森林的二分类,上次代码用py跑的,虽然跑出来在test上还可以,但是提交不理想啊,这里想用交叉验证,但是跑了一天一夜也木有出来,还是把代码先保留下来吧,希望看到的人指正rm(list=ls())setwd("D:\\competitions\\datacastle\\p2p")train_xtrain_yt原创 2015-12-28 09:53:38 · 2857 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
原文地址:点击打开链接在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初转载 2015-12-29 11:00:27 · 494 阅读 · 0 评论 -
损失函数(Loss Function) -1
http://www.cnblogs.com/rocketfan/p/4083821.html最近在学xgboost,首先得了解gbdt,gbdt是集成回归树,那么回归树是怎么做分类?慢慢搜到这个损失函数,知道boosting里用的损失函数是指数误差,而且也修正了以前的观点,总是知道自己所谓的损失函数是预测和实际值的差等一些损失函数,现在也明白了正则化是加在误差后面,一起构成损失函数,这样貌似转载 2015-12-29 14:48:43 · 1193 阅读 · 0 评论 -
建模和gbdt
原文点击打开链接作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。注解:truth4sex 编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体标注)。备注:图片可点击查看清晰版。1. 前言应 @龙星镖转载 2015-12-30 18:02:14 · 2592 阅读 · 0 评论 -
机器学习中的维度灾难(一)
作为一个挖掘小白,好不容易有了数据,第一步就死在高维度上了,本以为直接上来观看数据缺失值、数据分布等,但是上千维度肿么看,在网上搜索看到了这篇好文章,感谢原文作者的翻译原文链接点击打开链接一.引言这里我们将要讨论所谓的“维数灾难”,同时结合过拟合现象来解释它在分类器学习中的重要性。举一个分类应用的简单例子,假设我们有一系列的图片,每张图片的内容可能是猫也可能是狗;我转载 2015-12-02 19:00:28 · 5174 阅读 · 0 评论 -
机器学习维度灾难(二)
机器学习维度灾难(一)转载了原作者的文章,浅显易懂,于是尝试接着翻译原文没有翻译完的,初学者水平,有理解不对的和翻译错误的欢迎指正原英文链接:点击打开链接假设一个正方形代表二维特征空间,特征空间的平均值是这个正方形的中心,到这个中心距离为一个单位距离的样本分布在一个单位圆中。不在这个单位圆的样本相对于中心更接近正方形的边角。这些样本因为特征值差距很大(如对角的样本)而很难分类。由图9可翻译 2015-12-02 19:03:50 · 9291 阅读 · 1 评论 -
逻辑斯蒂回归中特征共线性或强相关的影响
https://blog.csdn.net/lipengcn/article/details/82467082 粘贴增加一部分解释:设想建立一个具有两变量X1和X2的线性模型,假设真实模型是Y=X1+X2。理想地,如果观测数据含有少量噪声,线性回归解决方案将会恢复真实模型。然而,如果X1和X2线性相关(大多数优化算法所关心的),Y=2*X1, Y=3*X1-X2或Y=100*X1-99...转载 2018-11-20 00:57:26 · 944 阅读 · 0 评论