汤圆是只猫-CSDN博客

原创 R语言（5）——因子

1 因子1.1 因子含义：R预言中的因子（factor）的设计思想来源于统计学中的名义变量（nominal variables），或称为分类变量。例如年龄中的：幼年、青年、中年、老年。这一类变量本质上不是数字，但是可以用数字为其编码、存储。1.2 创建因子#方法一> x<-c(10,8,12,10)> xf<-factor(x)> xf[1] 10 8 12 10Lev

2015-05-16 14:11:28 875

原创 R语言(4)——数据框

1、综述数据框可以类比matrix，数据框可以理解为每列的mode不同的matrix；这一点很像list和向量的关系：list是mode可以不同的向量。就技术层面而言，数据框是每个组件长度都相等的列表。2、基本操作2.1 创建> d<-data.frame(kids,ages,stringAsFactors=FALSE)> kids<-c("Jack","Jill")

2015-05-08 00:42:17 715

原创 R语言（3）——list

1 list 本质上也是一种向量1.1普通的向量是原子型（atomic）向量，就是说，向量的元素已经是最小的不可再分的了。而list属于“递归型”（recursive）向量。1.2 list可以包含不同的数据类型。（显然普通的向量是不行的）2 创建list2.1#method 1> j<-list(name="Joe",salary=10000,union

2015-04-18 16:58:00 3528

原创根据用户行为推荐商品问题的建模方法（也可以用来预测用户购买行为）

根据阿里数据大赛的讲解视频做的简单总结。只是告诉刚刚入门的同志，此类问题可以从哪些角度思考，用哪些方法建模http://v.youku.com/v_show/id_XNjkyNjM0MzQ4.html问题：在电商网站上，根据用户的行为，为用户推荐商品和品牌。（个人认为，同样可以用来预测用户的购买行为）1、将用户行为转化为分数，将该问题转化为一个评分预测，此类文献有很多。

2015-04-18 15:33:22 8459

原创 R语言（2）——矩阵

1 矩阵本质上是一种向量，比向量多两个属性：行数和列数。>nrow(m) #获取矩阵的行数>ncol(m)#获取矩阵的列数2 创建矩阵2.1 #方法一>y<-matrix(c(1,2,3,4),nrow=2,ncol=2)#方法二（也可以只制定行数或列数）>y<-matrix(c(1,2,3,4),nrow=2)#方法三（创建一个空矩阵，再向每个元素赋值）

2015-04-11 08:25:19 1383

原创 R语言（1）——向量

1、1、重点知识点：循环补齐；筛选；向量化1、向量的基础1.1 一个向量中存储的数据的模式必须相同1.2 向量没有添加或删除某元素的功能，如果想达到添加或删除的效果，创建一个新的变量再将元向量的指针指向它。如：x1.3 向量调用： for(i in x)，即自动将x中的值依次赋给i；如果希望依据向量内容的标号调用： for(i in 1:leng

2015-04-06 18:01:44 1421

转载决策树CART

决策树CART转自：http://blog.sina.com.cn/s/blog_5d6632e70101gh79.html目录(?)[+]分类回归树(CART,Classification And Regression Tree)也属于一种决策树，上回文我们介绍了基于ID3算法的决策树。作为上篇，这里只介绍CART是怎样用于分类的。分类

2015-04-01 00:01:49 983

转载 R-数据导入导出

转自：http://www.douban.com/note/243004605/数据导入：首先设定路径： setwd("D:/Documents/Quant/stocksindexfutures2011")1）从csv导入zjif=read.csv(c[1],header=FALSE)2）从文本逐行读入a.建立文本文件存放路径，路径间回车放b.逐行读入路径：c=read

2015-03-31 19:36:26 505

转载 R语言：数据挖掘相关包的介绍

R语言：数据挖掘相关包的介绍转自：http://www.douban.com/note/283634206/?type=like今天发现一个很不错的博客(http://www.RDataMining.com)，博主致力于研究R语言在数据挖掘方面的应用，正好近期很想系统的学习一下R语言和数据挖掘的整个流程，看了这个博客的内容，心里久久不能平静。决定从今天开始，

2015-03-31 16:18:02 535

转载 Matlab的数据挖掘工具箱spider

转自：http://blog.163.com/bit_runner/blog/static/53242218200961384725203/Matlab的数据挖掘工具箱spider 一 spider主页http://www.kyb.mpg.de/bs/people/spider/ （也可以在google上搜索spider matlab得到），关于它的介绍可以参考网

2015-03-31 16:09:22 1778

转载 C4.5 树剪枝

转自：http://www.cnblogs.com/superhuake/archive/2012/07/25/2609124.html树剪枝在决策树的创建时，由于数据中的噪声和离群点，许多分枝反映的是训练数据中的异常。剪枝方法是用来处理这种过分拟合数据的问题。通常剪枝方法都是使用统计度量，剪去最不可靠的分枝。剪枝一般分两种方法：先剪枝和后剪枝。

2015-03-31 15:48:09 6555 1

转载 C4.5 （信息增益率的含义讲的很清楚，算法实现也较详细）

转自：http://blog.sina.com.cn/s/blog_73621a3201017g7k.htmlC4.5算法1.3.1、ID3算法的改进：C4.5算法GOOGLE 学术主页： http://scholar.google.com.hk/citations?user=FjqRZCEAAAAJ C4.5，是机器学习算法中的另一个分类决策树算法，它是

2015-03-31 11:13:39 36654

转载归纳决策树ID3（信息熵的计算和计算原理写的很清楚）

归纳决策树ID3（Java实现）先上问题吧，我们统计了14天的气象数据(指标包括outlook，temperature，humidity，windy)，并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE，判断一下会不会去打球。table 1outlooktemperaturehumidi

2015-03-31 10:43:19 9783 1

fanbotao1209的专栏