- 博客(8)
- 资源 (4)
- 收藏
- 关注
原创 二维坐标点中查找最大凸多边形Java实现
参考如下文献中的Ruby代码实现的:http://www.jianshu.com/p/a297324f4906
2017-01-19 14:42:39 1564
原创 Spark MLlib中FPGrowth和FPTree详解之二
这一章节,主要介绍FPGrowth源码,以及运行过程演示2.3 FPGrowth源码详解run方法是FPGrowth的入口函数,其代码注释如下:/** * Computes an FP-Growth model that contains frequentitemsets. * @param data input data set, each element con
2016-08-20 20:35:49 3962 2
原创 Spark MLlib中FPGrowth和FPTree详解之一
一、准备知识1.1 Scala版本:2.10.41.2 Spark版本:1.5.0Spark中实现关联规则算法的包是:org.apache.spark.mllib.fpm。包中的文件如下图所示:这里面我重点讲解红色箭头指向的两个代码文件。讲解过程中如果有误解的地方,还请评论指正,谢谢!1.3 频繁模式增长FP-Growth要理解Spark MLlib中FPGro
2016-08-20 00:31:42 4799
转载 IntelliJ IDEA and Scala tutorial
下面是完整的利用IntelliJ进行Scala开发的教程,摘自Cousera的Scala公开课,网址如下:参考资料http://www.scala-sbt.org/release/docs/Setup.html第一步:要安装JDK,程序猿都知道!Installing the JDKLinuxUbuntu, Debian: To insta
2016-08-18 10:06:52 950
翻译 Apache Hadoop 安装
Apache Hadoop 安装过程tar -zxvf hadoop-2.7.0 -C ...其中关键的文件夹为 bin sbin 和 etc一、修改配置文件1.1 vim Hadoop-env.sh$JAVA_HOME的路径拷贝到export JAVA_HOME=...1.2 vim core-site.xmlfs.defaultFShdfs://`hos
2015-12-29 21:40:08 405
原创 分类算法精华理解
一、决策树Decision Tree1.1 抛开那些复杂的理论,首先需要牢记的就是信息熵公式:Information entropy = -plog2(p).1.2 ID3算法的信息增益1.2.1 利用决策列(就是训练集中已经知道的类别那一列来计算整体信息熵,以两个类别为例C1, C2)对所有数据进行划分。假如n个训练集中有n1个子集属于同类,另外n2属于另一个类。那么p1=n1/n
2015-12-28 19:58:44 496
原创 Win7中Eclipse开发运行Hadoop程序的相关配置
首先需要强调的是,Hadoop集群还是只能在linux系统中进行部署,我用的CentOS6.4版本的系统,安装的是Hadoop2.6.0.环境:win7 64位 通过命令winver查看系统版本hadoop-2.6.0 通过Hadoop -v 来查看Eclipse Version: Mars.1 Release (4.5.1) Build id: 20150924-120
2015-12-23 08:47:34 492
原创 通过PATH-B:cloudera manager安装cloudera5.4
首先,最好的安装指导还是官网的安装手册,最清晰的安装步骤就是手册里面的图。然后我就是安装通过PATH B来进行手动安装的。首先列出系统和安装包:虚拟机:VMware操作系统:CentOS-6.5-x86_64-bin-DVD1.iso (用这个系统在安装agent的时候需要三个RPM包:init-functions,gassapi和portmap,按照提示通过yum安装就好了)软件
2015-11-16 17:04:30 810
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人