数据挖掘
文章平均质量分 78
yakcy
学无止境!
展开
-
R语言包在linux上的安装、卸载
有关install.packages()函数的详见:R包 package 的安装(install.packages函数详解)R的包(package)通常有两种:1 binary package:这种包属于即得即用型(ready-to-use),但是依赖与平台,即Win和Linux平台下不同。2 Source package: 此类包可以跨平台使用,但用之前需要处理或者编译(co原创 2016-01-18 19:07:21 · 10038 阅读 · 0 评论 -
SparkR:数据科学家的新利器
摘要:R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措,最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API(SparkR)。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包,对大规模数转载 2016-01-18 20:21:43 · 782 阅读 · 0 评论 -
使用Spark+Cassandra打造高性能数据分析平台(二)
【导读】笔者( 许鹏)看Spark源码的时间不长,记笔记的初衷只是为了不至于日后遗忘。在源码阅读的过程中秉持着一种非常简单的思维模式,就是努力去寻找一条贯穿全局的主线索。在笔者看来,Spark中的线索就是如何让数据的处理在分布式计算环境下是高效,并且可靠的。在对Spark内部实现有了一定了解之后,当然希望将其应用到实际的工程实践中,这时候会面临许多新的挑战,比如选取哪个作为数据仓库,是HB转载 2016-02-01 10:02:33 · 3353 阅读 · 0 评论 -
R语言常用算法包
1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster, plot.hclust基于原创 2016-03-31 10:28:30 · 5005 阅读 · 0 评论