- 博客(13)
- 收藏
- 关注
原创 R语言(5)——因子
1 因子1.1 因子含义:R预言中的因子(factor)的设计思想来源于统计学中的名义变量(nominal variables),或称为分类变量。例如年龄中的:幼年、青年、中年、老年。这一类变量本质上不是数字,但是可以用数字为其编码、存储。1.2 创建因子#方法一> x<-c(10,8,12,10)> xf<-factor(x)> xf[1] 10 8 12 10Lev
2015-05-16 14:11:28 875
原创 R语言(4)——数据框
1、综述数据框可以类比matrix,数据框可以理解为每列的mode不同的matrix;这一点很像list和向量的关系:list是mode可以不同的向量。就技术层面而言,数据框是每个组件长度都相等的列表。2、基本操作2.1 创建> d<-data.frame(kids,ages,stringAsFactors=FALSE)> kids<-c("Jack","Jill")
2015-05-08 00:42:17 715
原创 R语言(3)——list
1 list 本质上也是一种向量1.1普通的向量是原子型(atomic)向量,就是说,向量的元素已经是最小的不可再分的了。 而list属于“递归型”(recursive)向量。1.2 list可以包含不同的数据类型。(显然普通的向量是不行的)2 创建list2.1#method 1> j<-list(name="Joe",salary=10000,union
2015-04-18 16:58:00 3528
原创 根据用户行为推荐商品问题的建模方法(也可以用来预测用户购买行为)
根据阿里数据大赛的讲解视频做的简单总结。只是告诉刚刚入门的同志,此类问题可以从哪些角度思考,用哪些方法建模http://v.youku.com/v_show/id_XNjkyNjM0MzQ4.html问题:在电商网站上,根据用户的行为,为用户推荐商品和品牌。(个人认为,同样可以用来预测用户的购买行为)1、将用户行为转化为分数,将该问题转化为一个评分预测,此类文献有很多。
2015-04-18 15:33:22 8459
原创 R语言(2)——矩阵
1 矩阵本质上是一种向量,比向量多两个属性:行数和列数。>nrow(m) #获取矩阵的行数>ncol(m)#获取矩阵的列数2 创建矩阵2.1 #方法一>y<-matrix(c(1,2,3,4),nrow=2,ncol=2)#方法二(也可以只制定行数或列数)>y<-matrix(c(1,2,3,4),nrow=2)#方法三(创建一个空矩阵,再向每个元素赋值)
2015-04-11 08:25:19 1383
原创 R语言(1)——向量
1、1、重点知识点:循环补齐;筛选;向量化1、向量的基础1.1 一个向量中存储的数据的模式必须相同1.2 向量没有添加或删除某元素的功能,如果想达到添加或删除的效果,创建一个新的变量再将元向量的指针指向它。如:x1.3 向量调用: for(i in x),即自动将x中的值依次赋给i;如果希望依据向量内容的标号调用: for(i in 1:leng
2015-04-06 18:01:44 1421
转载 决策树CART
决策树CART转自:http://blog.sina.com.cn/s/blog_5d6632e70101gh79.html目录(?)[+]分类回归树(CART,Classification And Regression Tree)也属于一种决策树,上回文我们介绍了基于ID3算法的决策树。作为上篇,这里只介绍CART是怎样用于分类的。分类
2015-04-01 00:01:49 983
转载 R-数据导入导出
转自:http://www.douban.com/note/243004605/数据导入:首先设定路径: setwd("D:/Documents/Quant/stocksindexfutures2011")1)从csv导入zjif=read.csv(c[1],header=FALSE)2)从文本逐行读入a.建立文本文件存放路径,路径间回车放b.逐行读入路径:c=read
2015-03-31 19:36:26 505
转载 R语言:数据挖掘相关包的介绍
R语言:数据挖掘相关包的介绍转自:http://www.douban.com/note/283634206/?type=like今天发现一个很不错的博客(http://www.RDataMining.com),博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天开始,
2015-03-31 16:18:02 535
转载 Matlab的数据挖掘工具箱spider
转自:http://blog.163.com/bit_runner/blog/static/53242218200961384725203/Matlab的数据挖掘工具箱spider 一 spider主页http://www.kyb.mpg.de/bs/people/spider/ (也可以在google上搜索spider matlab得到),关于它的介绍可以参考网
2015-03-31 16:09:22 1778
转载 C4.5 树剪枝
转自:http://www.cnblogs.com/superhuake/archive/2012/07/25/2609124.html树剪枝 在决策树的创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常。剪枝方法是用来处理这种过分拟合数据的问题。通常剪枝方法都是使用统计度量,剪去最不可靠的分枝。 剪枝一般分两种方法:先剪枝和后剪枝。
2015-03-31 15:48:09 6555 1
转载 C4.5 (信息增益率的含义讲的很清楚,算法实现也较详细)
转自:http://blog.sina.com.cn/s/blog_73621a3201017g7k.htmlC4.5算法1.3.1、ID3算法的改进:C4.5算法GOOGLE 学术主页: http://scholar.google.com.hk/citations?user=FjqRZCEAAAAJ C4.5,是机器学习算法中的另一个分类决策树算法,它是
2015-03-31 11:13:39 36654
转载 归纳决策树ID3(信息熵的计算和计算原理写的很清楚)
归纳决策树ID3(Java实现)先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。table 1outlooktemperaturehumidi
2015-03-31 10:43:19 9783 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人