- 博客(16)
- 资源 (7)
- 收藏
- 关注
原创 R分类
分类传统意义下的分类:生物物种预测:天气预报决策:yes or no分类的传统模型常见分类模型与算法 线性判别法 距离判别法 贝叶斯分类器 决策树 支持向量机(SVM) 神经网络线性判别法(Fisher)G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)x1=c(-1.9,-6.9,5.2,5.0
2016-05-31 16:17:37 952
原创 R多元线性回归
多元线性回归 统计建模与R软件-薛毅书p325选择自变量建立多元线性模型> data(swiss)> s=lm(Fertility~ .,data=swiss) #除因变量Fertility其他所有当自变量> print(s)模型汇总信息> summary(s) #查看相关性系数逐步回归:向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为
2016-05-31 15:56:18 1303
原创 R读取数据_转换时间_可视化实例
1、读取数据lesson8.txt文件放在工作目录下方法1:使用read.table参考这个帖子:http://f.dataguru.cn/thread-208388-1-1.htmlw=read.table("lesson8.txt",sep="\t")y<-matrix(as.matrix(w),nrow(w)/3,3,byrow=TRUE)y<-as.data.frame(y)
2016-05-31 15:55:11 1800
原创 R参考卡片
帮助和基础大部分 R 函数都有在线文档。help(topic) 关于 topic 的文档.?topic 同上help.search("topic") 搜索帮助系统apropos("topic") 返回在搜索路径下包含 (部分) 关键词”topic” 的所有对象名称help.start() HTML 形式的帮助 demo() R 功能演示 example(f)
2016-05-31 15:53:30 7927 2
原创 R-xgboost模型
R-xgboost模型 是"极端梯度上升"(Extreme Gradient Boosting)的简称xgboost: 速度快效果好的boosting模型install.packages("xgboost")library(xgboost)data(agaricus.train, package='xgboost')data(agaricus.test, package='xgbo
2016-05-31 15:51:40 5008
原创 组合预测模型
组合预测模型---基于R语言的模型组合 组合预测模型的普遍形式为各个单项预测模型的加权平均, 因此组合预测模型的重点在于加权系数的确定。如果对各个单项预测模型的加权系数赋值合理, 那么整个组合预测模型的预测精度也会相应提高。目前常用的方法有算术平均法、 最优权数法、 方差倒数法等方差倒数法是 Bates 和 Granger 曾提出的, 其基本原理是: 首先计算各个单项预测模型的误差平方
2016-05-20 15:10:48 20523 7
原创 spark笔记-MLlib之kmeans
聚类运算,生成2类import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsobjec
2016-05-13 20:02:08 545
原创 ubuntu15安装spark1.6
ubuntu安装spark1、安装Ubuntu2、设置root密码sudo passwd root[sudo] password for you :---> 输入你的密码,不会显示3、安装vmtools 复制到桌面 提取出来 su 命令 ./vm...install...4、系统设置-语言支持-检查-更新5、重启判断Ubuntu是否安装了ssh服务:ps -e
2016-05-13 19:44:39 494
原创 Spark笔记-sparkStreaming代码演示
Hdfs文件演示////////////////////////////////////////////////////////// 代码 /////////////////////////////////////////////////////////////////package week5import org.apache.spark.Sp
2016-05-12 18:00:24 500
原创 spark使用hive出错,添加以下配置
错误:Failed to start database 'metastore_db' with class loader org.apache.spark.sqlSPARK_HOME/CONF/spark-env.sh中配置:export HIVE_CONF_DIR=/opt/modules/hive-1.0.1/confexport CLASSPATH=$CLASSP
2016-05-12 10:40:45 3309
原创 Spark笔记简单实例演示
spark-shell --master local[1] #启动一个本地模式的spark应用 2代表的两个线程//parallelize演示val num=sc.parallelize(1 to 10)val doublenum = num.map(_*2)val threenum = doublenum.filter(_ % 3 == 0)threenum.colle
2016-05-11 21:34:57 463
原创 spark笔记-SQL
spark--SQL笔记1.6spark-shell --master local[1]创建val sc: SparkContext // An existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc)// this is used to implicitly conve
2016-05-11 21:32:39 2900
原创 Cayley定理在组合数学中的应用
Cayley定理又称凯莱定理过n个有标志顶点的树的数目等于n^(n-2)可以实现将树转化成一个一一对应的序列,根据规则可以互相转化。第一步:树转化成一一对应的序列任给一颗有n个标号的树,逐个摘取标号最小的叶子直到剩下最后一条边为止叶子的相邻顶点形成一个序列,序列长度为n-2 (序列可以是重复出现的数)第二步:把序列转化成树a序列为叶子的相邻顶点形成的序列,b序列为1
2016-05-05 10:15:02 2014
原创 R文件导入导出与快捷键
用Rstudio的话,在tools里的Global Options里packages可以设置默认的镜像点读取文件aa导出文本文件write.table函数语法:write.table (x, file ="", sep ="", row.names =TRUE, col.names =TRUE, quote =TRUE)x:需要导出的数据file:导出的文件路径
2016-05-04 08:22:46 1284
原创 Spark笔记一之启动、简单RDD、提交、测试
./spark-shell --master local[2] #启动一个本地模式的spark应用 2代表的两个线程启动Hadoop2.x start-dfs.sh start-yarn.sh stop-dfs.sh stop-yarn.sh新建spark项目scala scala 填名称 一直下一步File-Project Structure-Artifacts
2016-05-04 08:10:12 591
原创 数据研发工程师实习面试问题记录一
快速排序通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序可以开始寻找比6小的数从右往左找第二次比较,这次要变成找比k大的了,而且要从前往后找所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数列的中间位置归并排序
2016-05-04 08:05:07 934
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人