2015年12月_Tanya_girl

转载建模和gbdt

原文点击打开链接作者：陈天奇，毕业于上海交通大学ACM班，现就读于华盛顿大学，从事大规模机器学习研究。注解：truth4sex 编者按：本文是对开源xgboost库理论层面的介绍，在陈天奇原文《梯度提升法和Boosted Tree》的基础上，做了如下注解：1）章节划分；2）注解和参考链接（以蓝色和红色字体标注）。备注：图片可点击查看清晰版。1. 前言应 @龙星镖

2015-12-30 18:02:14 2592

转载损失函数(Loss Function) -1

http://www.cnblogs.com/rocketfan/p/4083821.html最近在学xgboost，首先得了解gbdt,gbdt是集成回归树，那么回归树是怎么做分类？慢慢搜到这个损失函数，知道boosting里用的损失函数是指数误差，而且也修正了以前的观点，总是知道自己所谓的损失函数是预测和实际值的差等一些损失函数，现在也明白了正则化是加在误差后面，一起构成损失函数，这样貌似

2015-12-29 14:48:43 1194

转载 GBDT（MART）迭代决策树入门教程 | 简介

原文地址：点击打开链接在网上看到一篇对从代码层面理解gbdt比较好的文章，转载记录一下： GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初

2015-12-29 11:00:27 494

原创随机森林建模

在看datacastle的建模大赛，用r写了随机森林的二分类，上次代码用py跑的，虽然跑出来在test上还可以，但是提交不理想啊，这里想用交叉验证，但是跑了一天一夜也木有出来，还是把代码先保留下来吧，希望看到的人指正rm(list=ls())setwd("D:\\competitions\\datacastle\\p2p")train_xtrain_yt

2015-12-28 09:53:38 2857

转载 r语言并行计算(2)----foreach函数

在建模中想使用并行计算，(1)中谈到并行计算，有个foreach函数，但是其中参数并不详细，这里点击打开链接有详细介绍foreach {foreach}foreachPackage: foreachVersion: 1.4.3Descr

2015-12-24 23:41:05 5117

转载 R语言并行计算(1)

终于知道了r的并行计算，哈哈，希望运行快，转载连接：1点击打开链接2 点击打开链接，这里只粘贴了第二个连接众所周知，在大数据时代R语言有两个弱项，其中一个就是只能使用单线程计算。但是在2.14版本之后，R就内置了parallel包，强化了R的并行计算能力。parallel包实际上整合了之前已经比较成熟的snow包和multicore包。前者已经在之前的文章中介绍过了，而后者无法在win

2015-12-23 16:18:39 1354

原创关于R语言中set.seed()

在r中取sample时候，经常会有set.seed(某数)，经常看见取值很大，其实这里无论括号里取值是多少，想要上下两次取值一样，都需要在每次取值前输入同样的set.seed(某数)，才能保证两次取值相同。set.seed(1)x<-rnorm(5)set.seed(1)y这样，x和y的值能保持一致

2015-12-21 22:08:49 9968

原创 R读书笔记之特征工程（一）空值处理

在特征处理中，会有空值的删除或者填充。一：删除 1一般删除是最简单的，用na.omit(data)就搞定，但是太粗暴了。 2若是有的观测量空缺值太多的话，确实需要删除，因为用别的方法填充反而会导致模型偏差。那么肿么统计观测量的空值的个数捏？可以参考函数：apply(dataframe,1,function(x) sum(is.na(x))),其中is.na()返

2015-12-17 00:09:28 4313 1

原创随机森林二分类建模

由于对r相对比较熟悉，先用的r处理数据，但是跑模型太慢，因此用py跑的模型。用了逻辑回归和随机森林，显然后者要好很多，因为维度一千多个，而且逻辑回归要涉及到更详细的特征处理,第一部分是r代码，第二部分是py一 r coderm(list=ls())library(caret)train_xtrain_ytrainrepfor (i in 1:6){ r

2015-12-15 15:13:56 8851 3

原创为什么梯度下降慢而用随机梯度下降

斯坦福大学机器学习视频中涉及到梯度下降和随机梯度下降，觉得机器学习中很多问题都用到凸优化，如线性回归和逻辑回归最终都转化成凸优化，来寻找参数。但是为什么梯度下降会很慢，我们先看线性回归最小二乘的梯度下降公式：第一个公式是对每个theta求偏导数，第二个公式是对theta的更新从两个公式中可以看出这个公式中是要用到从1到m的所有样本，因此迭代步骤会慢很多

2015-12-13 13:55:02 1702

原创皮尔森相关系数不能用于度量类别型变量关系

一直纠结皮尔森相关系数能不能用于类别型或有序型变量的相关性检测，之前教学时候用的数据都是连续型的，看到这篇文章的介绍，点击打开链接其中提到：“必须假设数据是成对地从正态分布中取得的。”更加确定了，类别型变量本身就是离散型的变量。统计学中的分布有（摘抄网上资源）：一常用离散类型分布：1二项分布，2泊松分布，3几何分布，4负二项分布，5单点分布，6 对数分布，7超几

2015-12-10 12:41:06 4932

原创 python anaconda 安装包

在cmd中运行如下命令就安装好了sklearn conda install scikit-learn

2015-12-09 10:03:21 921

原创 linux命令

vimdiff test a.test b.test 比较两者不同cd ..返回上一目录cd命令：切换当前目录至其它目录，比如进入/etc目录，则执行 cd /etcll 命令列出的信息更加详细，有时间，是否可读写等信息 vi filename :打开或新建文件，并将光标置于第一行首 tree filename: 树状查看文件目录

2015-12-08 21:16:42 395

原创 r语言n折交叉验证

原文点击打开链接，只是在这里加上了注释myfuc remain cllength(x)/n个样本，也就是每个元素对应着length(x)/n个不重复的样本 a for(i in 1:10){ #对1到10

2015-12-08 17:33:45 20466 2

原创 R语言 caret包 findCorrelation()函数用法

在做降低维度处理时候，需要考察变量之间相关性，r语言caret包 findCorrelation()可以用来筛选与其他相关性系数强的变量并且删除。findCorrelation(x, cutoff = .90, verbose = FALSE)X是需要输入的相关系数矩阵，假如有n*n维度的相关矩阵，每个变量有n-1个相关系数（除了自己），他会对这n-1个相关系数取平均值，这样每个变量都

2015-12-07 11:14:39 6886 2

在建模中第一步就是特征处理，之前用spss modeler这种集成好的软件，没有处理过维度很高的数据，上来就是数据各种图形、缺失值、噪声处理，这次接触到上千个维度，数据看了下倒是没有缺失值，用r去做逻辑回归，但是总是报错，后来发现是模型迭代次数太少，模型不稳定，需要调节参数control=list(maxit=100)，但是运行很慢很慢，因此想先降低维度再建立模型吧，但是网上和书本上都是讲解各种算

2015-12-07 09:24:34 1583

翻译用pca进行特征选择

原文地址：点击打开链接和维度灾难的作者是同一个作者，可惜只写了降低维度的这一个方法。1 简介在这篇文章中，我们讨论了主成分分析是如何工作的，以及为什么它能够作为分类的降维方法。文章末尾展示了matlab源代码。在之前一篇文章中我们讨论了维度灾难，以及在高维空间中，分类器容易发生过拟合。因此产生了问题：应该选择和舍弃哪些特征。如果所有的特征都统计意义上

2015-12-04 14:41:15 4407

翻译机器学习维度灾难（二）

机器学习维度灾难（一）转载了原作者的文章，浅显易懂，于是尝试接着翻译原文没有翻译完的，初学者水平，有理解不对的和翻译错误的欢迎指正原英文链接：点击打开链接假设一个正方形代表二维特征空间，特征空间的平均值是这个正方形的中心，到这个中心距离为一个单位距离的样本分布在一个单位圆中。不在这个单位圆的样本相对于中心更接近正方形的边角。这些样本因为特征值差距很大（如对角的样本）而很难分类。由图9可

2015-12-02 19:03:50 9291 1

转载机器学习中的维度灾难（一）

作为一个挖掘小白，好不容易有了数据，第一步就死在高维度上了，本以为直接上来观看数据缺失值、数据分布等，但是上千维度肿么看，在网上搜索看到了这篇好文章，感谢原文作者的翻译原文链接点击打开链接一.引言这里我们将要讨论所谓的“维数灾难”，同时结合过拟合现象来解释它在分类器学习中的重要性。举一个分类应用的简单例子，假设我们有一系列的图片，每张图片的内容可能是猫也可能是狗；我

2015-12-02 19:00:28 5174

原创 Feature extraction, foundation and application笔记

3.1节 pearson相关系数是典型的用在individual feature ranking的方法，适用于回归和二分类问题，pearson相关系数可以看成两个向量center化之后夹角余弦的绝对值3.2节多元统计变量，考虑各个变量的相关性。用多元统计变量的一个理由是，有的特征与目标变量不相关，但是与其他某些特征结合，会变成相关的。在生活中的栗子：一张有污点的图片，特征1

2015-12-01 23:59:34 616

Tanya_girl的博客