2016年05月_余音丶未散

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 R分类

分类传统意义下的分类：生物物种预测：天气预报决策：yes or no分类的传统模型常见分类模型与算法 线性判别法 距离判别法 贝叶斯分类器 决策树 支持向量机(SVM) 神经网络线性判别法（Fisher）G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)x1=c(-1.9,-6.9,5.2,5.0

2016-05-31 16:17:37 952

原创 R多元线性回归

多元线性回归统计建模与R软件-薛毅书p325选择自变量建立多元线性模型> data(swiss)> s=lm(Fertility~ .,data=swiss) #除因变量Fertility其他所有当自变量> print(s)模型汇总信息> summary(s) #查看相关性系数逐步回归：向前引入法：从一元回归开始，逐步增加变量，使指标值达到最优为

2016-05-31 15:56:18 1303

原创 R读取数据_转换时间_可视化实例

1、读取数据lesson8.txt文件放在工作目录下方法1：使用read.table参考这个帖子：http://f.dataguru.cn/thread-208388-1-1.htmlw=read.table("lesson8.txt",sep="\t")y<-matrix(as.matrix(w),nrow(w)/3,3,byrow=TRUE)y<-as.data.frame(y)

2016-05-31 15:55:11 1800

原创 R参考卡片

帮助和基础大部分 R 函数都有在线文档。help(topic) 关于 topic 的文档.?topic 同上help.search("topic") 搜索帮助系统apropos("topic") 返回在搜索路径下包含 (部分) 关键词”topic” 的所有对象名称help.start() HTML 形式的帮助 demo() R 功能演示 example(f)

2016-05-31 15:53:30 7927 2

原创 R-xgboost模型

R-xgboost模型是"极端梯度上升"(Extreme Gradient Boosting)的简称xgboost: 速度快效果好的boosting模型install.packages("xgboost")library(xgboost)data(agaricus.train, package='xgboost')data(agaricus.test, package='xgbo

2016-05-31 15:51:40 5008

原创组合预测模型

组合预测模型---基于R语言的模型组合组合预测模型的普遍形式为各个单项预测模型的加权平均，因此组合预测模型的重点在于加权系数的确定。如果对各个单项预测模型的加权系数赋值合理，那么整个组合预测模型的预测精度也会相应提高。目前常用的方法有算术平均法、最优权数法、方差倒数法等方差倒数法是 Bates 和 Granger 曾提出的，其基本原理是：首先计算各个单项预测模型的误差平方

2016-05-20 15:10:48 20523 7

原创 spark笔记-MLlib之kmeans

聚类运算，生成2类import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsobjec

2016-05-13 20:02:08 545

原创 ubuntu15安装spark1.6

ubuntu安装spark1、安装Ubuntu2、设置root密码sudo passwd root[sudo] password for you ：---> 输入你的密码，不会显示3、安装vmtools 复制到桌面提取出来 su 命令 ./vm...install...4、系统设置-语言支持-检查-更新5、重启判断Ubuntu是否安装了ssh服务：ps -e

2016-05-13 19:44:39 494

原创 Spark笔记-sparkStreaming代码演示

Hdfs文件演示////////////////////////////////////////////////////////// 代码 /////////////////////////////////////////////////////////////////package week5import org.apache.spark.Sp

2016-05-12 18:00:24 500

原创 spark使用hive出错,添加以下配置

错误：Failed to start database 'metastore_db' with class loader org.apache.spark.sqlSPARK_HOME/CONF/spark-env.sh中配置：export HIVE_CONF_DIR=/opt/modules/hive-1.0.1/confexport CLASSPATH=$CLASSP

2016-05-12 10:40:45 3309

原创 Spark笔记简单实例演示

spark-shell --master local[1] #启动一个本地模式的spark应用 2代表的两个线程//parallelize演示val num=sc.parallelize(1 to 10)val doublenum = num.map(_*2)val threenum = doublenum.filter(_ % 3 == 0)threenum.colle

2016-05-11 21:34:57 463

原创 spark笔记-SQL

spark--SQL笔记1.6spark-shell --master local[1]创建val sc: SparkContext // An existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc)// this is used to implicitly conve

2016-05-11 21:32:39 2900

原创 Cayley定理在组合数学中的应用

Cayley定理又称凯莱定理过n个有标志顶点的树的数目等于n^(n-2)可以实现将树转化成一个一一对应的序列，根据规则可以互相转化。第一步：树转化成一一对应的序列任给一颗有n个标号的树，逐个摘取标号最小的叶子直到剩下最后一条边为止叶子的相邻顶点形成一个序列，序列长度为n-2 (序列可以是重复出现的数)第二步：把序列转化成树a序列为叶子的相邻顶点形成的序列，b序列为1

2016-05-05 10:15:02 2014

原创 R文件导入导出与快捷键

用Rstudio的话，在tools里的Global Options里packages可以设置默认的镜像点读取文件aa导出文本文件write.table函数语法：write.table (x, file ="", sep ="", row.names =TRUE, col.names =TRUE, quote =TRUE)x：需要导出的数据file：导出的文件路径

2016-05-04 08:22:46 1284

原创 Spark笔记一之启动、简单RDD、提交、测试

./spark-shell --master local[2] #启动一个本地模式的spark应用 2代表的两个线程启动Hadoop2.x start-dfs.sh start-yarn.sh stop-dfs.sh stop-yarn.sh新建spark项目scala scala 填名称一直下一步File-Project Structure-Artifacts

2016-05-04 08:10:12 591

原创数据研发工程师实习面试问题记录一

快速排序通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序可以开始寻找比6小的数从右往左找第二次比较，这次要变成找比k大的了，而且要从前往后找所有元素比基准值小的摆放在基准前面，所有元素比基准值大的摆在基准的后面（相同的数可以到任一边）。在这个分区退出之后，该基准就处于数列的中间位置归并排序

2016-05-04 08:05:07 934

阿里平台MR

阿里御膳房平台MR示例代码-数加平台OPEN_MR示例

2016-06-16

阿里菜鸟仓库比赛说明

2016-06-01

MATLAB神经网络原理与实例精解pdf

MATLAB神经网络原理与实例精解pdf书籍，留的是百度网盘，高清PDF，文件大于60MB，全书齐，神经网络学习必备

2016-03-17

Ambari安装

关于Ambari安装过程，亲测可用，Hadoop集群监控

2015-12-30

HADOOP实战__陆嘉恒著

机械工业出版社 HADOOP实战陆嘉恒著

2015-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人