自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 spark机器学习实现之随机森林

还是按照以前交代的,通过接口配置sc,忘记的可查看 http://blog.csdn.net/wangkai198911/article/details/78728449通过sqlcontext直接创建dataframe,数据格式的为libsvm,label: double, features: vectorlabel即为分类标签,features是特征,以vector的方式进行保存//

2017-12-26 12:01:20 1752 3

原创 spark代码sc统一配置

之前写了两篇关于mlib的应用,其实都是在一个project内的,在创建sc的过程中,可以通过继承统一的trait简化sc的创建。val postgprop = new Properties val path = this.getClass.getResourceAsStream("/config.properties")读取相关配置文件key.name=valuejdbcURL=jdbc:m

2017-12-06 11:04:40 1871

原创 spark机器学习之als

今天分析一下als算法在spark mlib中的相关应用,关于原理性的东西,还是不多做介绍,als本身是协同过滤算法的一种,08年以来也是使用最频繁的协同过滤算法了。主要的原理性东西,推荐这篇博客: http://blog.csdn.net/antkillerfarm/article/details/53734658本文章在这里主要还是介绍als算法在spark mlib中的应用,以及在构建r

2017-12-06 10:21:46 535

原创 spark机器学习实现之fpgrowth

很久之前就像写一些关于数据挖掘算法的东西,因为懒现在才开始动手,因为fpgrowth算法在mlib中的实现 相对比较简单,所以打算先拿它下手。 关于fpgrowth的原理本人说的也不专业, 推荐 http://blog.csdn.net/huagong_adu/article/details/17739247这里主要写一下在mlib当中,实现的一个过程 先上代码Logger.getLog

2017-09-25 17:16:39 1297

原创 hadoop集群管理之文件分发

上一篇说了集群中怎样统一执行集群命令 http://blog.csdn.net/wangkai198911/article/category/7192845这里主要讲一下在集群中,如何去分发相关的配置文件,配置文件、hosts、bashrc等配置项 在集群中只需配置单一节点即可(一般在namenode上做配置就可以了)。配置完成后,采用统 一分发的模式,让各个节点完成统一。 配置文件de

2017-09-25 16:47:02 2594

原创 hadoop集群管理之统一执行

hadoop集群ssh打通之后,再进行一些统一的脚本执行等等操作时,可以通过脚本的方式进行,例如:全集群查看进程,统一分发配置文件等等。通过ssh+linux脚本,在namenode上就可以完成对整个集群的管理,这种方法也大大节省了集群的管理效率。这一部分我们先介绍统一命令执行的相关操作:脚本内容if [ $# -lt 2 ]then echo "Usage: ./runRemoteCmd

2017-09-25 10:55:33 513

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除