- 博客(22)
- 资源 (14)
- 收藏
- 关注
转载 机器学习经典算法详解及Python实现--决策树(Decision Tree)
(一)认识决策树1,决策树分类原理决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单。决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如
2016-12-21 13:46:10 1198
转载 机器学习-CrossValidation交叉验证Python实现
1.原理1.1 概念交叉验证(Cross-validation)主要用于模型训练或建模应用中,如分类预测、PCR、PLS回归建模等。在给定的样本空间中,拿出大部分样本作为训练集来训练模型,剩余的小部分样本使用刚建立的模型进行预测,并求这小部分样本的预测误差或者预测精度,同时记录它们的加和平均值。这个过程迭代K次,即K折交叉。其中,把每个样本的预测误差平方加和,称为PRESS(pre
2016-12-19 11:58:53 8454
转载 在分类中如何处理训练集中不平衡问题
原文地址:一只鸟的天空,http://blog.csdn.net/heyongluoyao8/article/details/49408131在分类中如何处理训练集中不平衡问题 在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答
2016-12-19 10:09:11 432
原创 R语言采用多元回归建模的基本步骤
前言:本次建模过程是基于RedHat6.8或者CentOS6.8,R3.1.2,Rstudio-server 关于R3.1.2,Rstudio-server的整个配置,原始数据(已经脱敏处理,不涉及泄密,如有侵权,请随时联系)以及本分析的源码均放置在GitHub上,通过click here访问数据导入:#install essential packagesinstall.packages("rJ
2016-12-18 21:02:52 11708 1
转载 多人在线协作R开发RStudio Server
R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。要成为有理想的极客,我们不能停留在语法上,要
2016-12-18 16:28:01 996
转载 使用R语言绘制其他图形之相关系数图
之前ggplot2系列中我们已经学会了常用的统计图形,如条形图、直方图、散点图、折线图、饼图和地图等,今天再和大家谈谈R语言中常用的其他图形,如相关系数图。虽然cor()函数可以非常方便快捷的计算出连续变量之间的相关系数,但当变量非常多时,返回的相关系数一定时读者看的眼花缭乱。下面就以R自带的mtcars数据集为例,讲讲相关系数图的绘制:cor(mtcars[1:7])
2016-12-18 16:26:22 31485 1
转载 R语言读取Excel文件
因为一个项目需要,原始数据全部是Excel文件,包括.xls和.xlsx格式,并且很多excel数据的格式并不规范,一个个转为csv格式不太现实,所以把所有能了解到的读取excel的方法都试了一遍,做个简单汇总。相关的包:RODBC、xlsx、openxlsx、gdata、readxl,测试平台win7。RODBC包-相关方法RODBC-odbcConnectExcel2007()、o
2016-12-17 23:42:15 705
翻译 run “sudo R CMD javareconf” get “Cannot find any Java interpreter”
I tried to install a plugin for eclipse,but get an error,after some googling,got a suggestion to run:sudo R CMD javareconf,but got this error:*** Cannot find any Java interpreter*** Please make sur
2016-12-17 23:36:41 1310
原创 Linux 下R及rstudio-server安装_及配置管理
系统版本是Centos6.8 大家都懂的,你要有某个文件夹的权限下,就可以开始安装R和Rstudio,然后就可以通过网页访问了,安装顺序是:1.安装相关组件yum install gcc-gfortranyum install gcc gcc-c++yum install readline-develyum install libXt-devel2.安装R包
2016-12-17 19:35:20 3339
转载 如何在linux环境下使用r语言
如何在linux环境下使用r语言真朱丶379| 浏览 1974 次发布于2015-12-23 13:05最佳答案1、下载wget http://mirror.bjtu.edu.cn/cran/src/base/R-3/R-3.0.1.tar.gz2、解压:tar -zxvfR-3.0.1.tar.gzcd R-3.0.13、安装 (当然也可以跳过)yu
2016-12-17 17:04:35 19831
转载 CentOS6.4使用YUM安装Adobe Flash Player
方法一:安装 Flash Player以管理员身份登录。yum install flash-plugin验証安装安装好后,重新启动FireFox,在地址栏输入【about:plugins】确定 Shockware Flash 是否安装成功并启用。更新 Flash player以管理员身份登录。yum update flash-plugin
2016-12-17 16:48:19 324
转载 在CentOS 7/6.5/6.4 中安装Java JDK 8
本教程介绍如何安装和在CentOS7,6.5,和6.4的服务器上配置最新的Oracle的JavaJDK。虽然,这些步骤应该同样适用于其他基于RPM的发行版,如RHEL7,6.x,Scientific Linux6.x和Fedora。首先,在你的服务器上运行一下更新。yum update然后,在您的系统上搜索,任何版本的已安装的JDK组件。rpm -qa | grep -E
2016-12-17 16:40:33 342
转载 Building R-devel on RedHat Linux 6
Warning: I’m 85% done with this, formatting is not right. I DO NOT want to type in the prompt in front of every command because then one cannot copy/paste directly. However, copying some output chunk
2016-12-17 16:03:15 1428
转载 R语言 linux安装
由于希望在Hadoop集群上配置RHadoop,自然需要在每个服务器节点上安装R语言。在安装过程也碰到了一些小问题,因此记录一下。 首先服务器系统版本为centos5.6,R版本为2.13.2。下面是安装步骤: 1、解压文件:tar –zvxfR-2.13.2.tar.gz 2、进入R源文件目录:cdR-2.13.2 3、执行./configure命令,提示错误
2016-12-17 16:02:13 645
转载 总结下R语言进行简单多元回归的基本步骤
最近论文,刚好研究下R的回归分析。作此笔记,以便将来参考。1.读入数据,R-STUDIO直接有按钮,否则就> zsj 数据一般从excel的CSV或者txt里读取,实现整理好以符合R的数据框的结构ps1:这块有很多包提供从不同来源读取数据的方法,笔者还得慢慢学。。2.画相关图选择回归方程的形式> plot(Y~X1);abline(lm(
2016-12-15 17:04:59 12742
转载 R语言多元线性回归
1、根据业务经验挑选出可能对预测目标变量有影响的指标;2、将这些指标对目标变量做相关性分析cor(),挑选出相关系数较大的指标进一步分析;3、检验这些指标与目标变量是否线性关系,一般可以plot()检验,如果非线性,尝试做平方或开方等方法使之变成线性;3、将相关系数较大的指标全部作为解释变量做多远线性回归lm(),得到拟合模型lm.fit;4、对模型的做系数和方程的显著性检
2016-12-15 17:03:17 1320
转载 ValueError: The indices for endog and exog are not aligned
I am getting above error when I am running an iteration using FOR loop to build multiple models. First two models having similar data sets build fine. While building third model I am getting t
2016-12-15 16:36:34 4742
转载 Python numpy生成矩阵、串联矩阵
版权声明:本文为博主原创文章,未经博主允许不得转载。import numpy生成numpy矩阵的几个相关函数:numpy.array()numpy.zeros()numpy.ones()numpy.eye()串联生成numpy矩阵的几个相关函数:numpy.array()numpy.row_stack()numpy.column_st
2016-12-13 13:58:12 1657
转载 分分钟学会用python爬取心目中的女神——Scrapy
作者:战神王恒本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力。本文以校花网为例进行爬取,让你体验爬取校花的成就感。Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于
2016-12-11 18:57:14 602
转载 Python笔记-几种取整方式
背景在处理数据的时候,碰到了一个问题,就是取整方式!比如给定一个数值型列表,我需要分别获取它位置为长度的0%,25%,50%,75%,100%处的几个数字。但Python自带的int 是向下取整,如果数字长度是5,理论上这五个数字分别对应0%,25%,50%,75%,100%的位置,但使用 int ,结果却并不是入次。比如当5*0.75 时,如果加上 int(5*0.75) ,
2016-12-09 16:19:48 312
转载 Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等)
去空格及特殊符号s.strip().lstrip().rstrip(',')复制字符串#strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sStr2连接字符串#strcat(sStr1,sStr2)sStr1 = 'strcat'sStr2 = '
2016-12-08 17:22:38 279
转载 linux tar (打包.压缩.解压缩)命令说明 | tar如何解压文件到指定的目录
#压缩tar -czvf ***.tar.gztar -cjvf ***.tar.bz2#解压缩tar -xzvf ***.tar.gztar -xjvf ***.tar.bz2 +++++++++++++++++++++++++++++++++++++++++++++ 简介参数:-c :建立一个压缩档
2016-12-08 12:05:02 652
Learning Python Design Patterns - Second Edition
2017-02-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人