R
岸芷汀兰whu
热爱生活、热爱技术
展开
-
ubuntu安装shiny-server记录
安装R编译安装R 官网安装shiny包的方式$ sudo su - \-c "R -e \"install.packages('shiny', repos='https://cran.rstudio.com/')\""如果不成功,就本地安装 本地安装R包安装gdebi和shiny-server$ sudo apt-get install gdebi-core$ wget https://do原创 2015-08-19 09:42:08 · 2145 阅读 · 0 评论 -
SparkR
简介SparkR是一个提供从R中使用Spark的轻量级前端的R包。在Spark1.6以后,SparkR提供了分布式数据框,它支持selection,filtering,aggregation等操作。也支持使用MLlib分布式机器学习。SparkR数据框类似于R中的数据框,数据源有结构化数据文件,Hive表,外部数据库或者本地R数据框。Starting up:SparkContext,SQLConte翻译 2016-01-17 16:11:25 · 1455 阅读 · 0 评论 -
【肖凯】如何学习好R语言
学习 R 的方法知识和耐心,是成为强者的唯一方法。 - 通过阅读来学习。 包括了阅读经典的教材、代码、论文、学习公开课。 - 通过牛人来学习。 包括同行的聚会、讨论、大牛的博客、微博、twitter、RSS。 - 通过练习来学习。 包括代码练习题、参加kaggle比赛、解决实际工作中的难题。 - 通过分享来学习。 包括自己写笔记、写博客、写书、翻译书,和同伴分享交流、培训新转载 2015-11-27 19:59:26 · 3544 阅读 · 0 评论 -
R机器学习之二:逻辑回归
逻辑回归是啥?Logistic 回归是一个二分类算法,用来预测给定独立变量集的二分类输出。我们使用哑变量代替二分类输出。也可以把逻辑回归看成输出为类别变量的特殊的线性回归(使用对数几率作为依赖变量)。简而言之,它通过拟合一个logit函数预测一件事情的发生的概率。逻辑回归方程的由来广义线性模型的基本等式是; g(E(y))=α+βx1+γx2g(E(y))=\alpha +\beta x1+\ga原创 2015-11-27 09:11:19 · 6882 阅读 · 1 评论 -
R机器学习之一:kNN算法案例
kNN算法优劣优点: 高度无偏且不需要对数据作任何假设。简单有效易于实现 缺点: 由于没有涉及抽象过程,kNN实际上并没有创建一个模型,预测时间较长case study:检测前列腺癌Step 1 : 100个观测10个变量,其中8个数值变量,一个类别变量,一个ID: 1,Radius 2,Texture 3,Perimeter 4,Area 5,Smoothness 6,Comp原创 2015-11-27 08:55:54 · 4143 阅读 · 0 评论 -
R语言数据挖掘
基于R语言的随机森林算法运用http://mp.weixin.qq.com/s?__biz=MzIxNjA2ODUzNg==&mid=400806663&idx=1&sn=51b4b7a44a33606bd9262e208f91c2df&scene=0#wechat_redirect【译文】简单的R逻辑回归向导http://mp.weixin.qq.com/s?__biz=MjM5MzM4Mjc4M原创 2015-11-25 20:44:01 · 791 阅读 · 0 评论 -
R语言k-means聚类
轮廓系数参考https://en.wikipedia.org/wiki/Silhouette_(clustering)K值选取在实际应用中,由于Kmean一般作为数据预处理,或者用于辅助分类贴标签。所以k一般不会设置很大。可以通过枚举,令k从2到一个固定值如10,在每个k值上重复运行数次kmeans(避免局部最优解),并计算当前k的平均轮廓系数,最后选取轮廓系数最大的值对应的k作为最终的集群数目。数原创 2015-11-24 13:18:13 · 5744 阅读 · 0 评论 -
R中的SQL包--sqldf
read.csv.sql使用sql读取一个文件read.csv.sql(file=路径或者url, sql = "select * from file", header = TRUE, sep = ",",row.names, eol换行符, skip, filter, nrows, field.types,colClasses, dbname = tempfile(), drv = "SQL原创 2015-12-10 14:15:28 · 9518 阅读 · 1 评论 -
R读取大数据--仅读取指定列
这个是一个复杂的问题。但是本文只是给出一点点小经验。假设我们有一个大文件需要读入R,但是我们不太确定文件是什么样子的,或者说,我们很确定文件是什么样子的,但是我们只想读入其中某些列,应该怎么办呢?如果你的足够的内存和耐心,你可以按常规:data <- read.table("datatable.txt")head(data)如果你在列表表头时发现数据并不是你想象的格式,这无疑是让人很难受的一件事情转载 2015-12-08 20:49:48 · 28546 阅读 · 2 评论 -
mac 上安装rsqldf
> install.packages("sqldf") % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0原创 2016-03-31 12:57:25 · 1904 阅读 · 0 评论