sunbow0-CSDN博客

原创 Spark MLlib NaiveBayes 贝叶斯分类器

1.1朴素贝叶斯公式贝叶斯定理：其中A为事件，B为类别，P(B|A)为事件A条件下属于B类别的概率。朴素贝叶斯分类的正式定义如下： 1、设为一个待分类项，而每个a为x的一个特征属性。 2、有类别集合。 3、计算。 4、如果，则。那么现在的关键就是如何计算第3步中的各个条件概率：

2015-04-29 11:28:06 5762 1

原创 Spark MLlib 核心基础：向量 And 矩阵

1、Spark MLlib 核心基础：向量 And矩阵1.1 Vector1.1.1 dense vector源码定义： * Creates a dense vector from its values. */ @varargs def dense(firstValue: Double, otherValues: Double*): Vector =

2015-04-23 17:47:21 9261

原创 Spark构建推荐引擎之二：基于Spark Streaming 实时推荐计算

1、Spark构建推荐引擎之二：基于Spark Streaming 实时推荐计算1.1 数据输入模型1）用户数据输入数据格式：用户ID，物品ID，点击次数。2）相似矩阵输入数据格式：物品ID，物品ID，相似度1.2 物品相似矩阵采用SparkContext读取物品的相似矩阵： //2 sc 读取相似矩阵 valsimi_path1 ="

2015-02-03 20:44:12 4688 1

原创 Spark Streaming之二：DStream解析

1.0前言目前Spark Streaming编程指南地址：http://spark.apache.org/docs/latest/streaming-programming-guide.html1.1基本说明1.1.1 DurationSpark Streaming的时间类型，单位是毫秒；生成方式如下：

2015-01-24 21:34:42 9182

原创 Spark Streaming之一：StreamingContext解析

1.0 前言目前Spark Streaming编程指南地址：http://spark.apache.org/docs/latest/streaming-programming-guide.html1.1 创建StreamingContext对象1.1.1通过SparkContext创建源码如下：def this(sparkContext:SparkCon

2015-01-21 12:04:43 7317

原创基于Spark构建推荐引擎之一：基于物品的协同过滤推荐

1、Spark构建推荐引擎之一：基于物品的协同过滤推荐1.0 前言目前SparkMLlib支持的推荐算法只有alternating least squares (ALS)这一种，相比较Mahout中的推荐算法，SparkMLlib目前不能支持目前的业务需求；因此，参照Mahout的推荐引擎，在Spark上构建同样一套推荐算法，以支持各种业务需求。目前SparkMLlib官方网址：h

2015-01-15 10:14:04 12902 5

原创 Spark SQL 1.2(building-spark1.2, sparksql on hive,spark-sql)

1、Spark SQL 1.2(building-spark1.2,sparksql on hive,spark-sql)1.1补充——Spark1.2编译Spark官方编译指南地址：http://spark.apache.org/docs/latest/building-spark.html1)ssh脚本编译Spark源文件根目录下：make-distributi

2015-01-07 10:04:23 2215

原创 Spark—基于物品的协同过滤推荐算法

1、Spark—基于物品的协同过滤推荐算法1.1 离线计算—物品的相似度矩阵输入数据格式：用户ID，物品ID，评分输出结果格式：物品ID1，物品ID2，相似度Spark程序代码如下：// #0 设置输入输出 val inputpath = "hdfs://192.168.180.10:9000/user/input" val outputpat

2014-12-24 10:00:49 5498 2

原创 Spark脚本提交/运行/部署

1、Spark脚本提交/运行/部署 1.1 spark-shell（交互窗口模式）运行spark-shell需要指向申请资源的standalone spark集群信息，其参数为MASTER，还可以指定executor及driver的内存大小。sudo spark-shell --executor-memory 5g --driver-memory1g --master spark

2014-12-23 10:17:25 6665

原创 Spark1.x RDD基本操作

1. Spark1.x RDD基本操作 Spark官方文档：http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations1.1. Transformations1.1.1. 创建RDD1、数组创建RDD从普通数组创建RDD，里面包含了1到9这9个数字，它们分别在3个分区中。

2014-12-16 16:34:45 2064

原创 Spark1.x编译与安装

1. Spark1.x编译与安装1.1. 基础准备见《1、基础准备（JDK、Maven、服务器配置）》。1.2. Hadoop集群准备见《2、Hadoop2.2.0 编译与安装》1.3. Scala安装1) 下载集群中每台机器安装Scala；Scala官方下载地址：http://www.scala-lang.org/download/

2014-12-16 16:34:03 2139

原创关联规则挖掘及R算法实现

关联规则挖掘及R算法实现关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。如果两项或多项属性之间存在关联，那么其中一项的属性就可以依据其他属性值进行预测。它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品（项）之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以

2014-12-16 16:30:56 18407

原创 Mahout0.9—Hadoop2.20—FPG关联规则算法

1. Mahout0.9—Hadoop2.20—FPG关联规则算法1.1. FPG函数目前Mahout0.9 无fpg函数，0.9之前版本有，但是在0.9中可以找到fpg的jar包；mahout org.apache.mahout.fpm.pfpgrowth.FPGrowthDriver 等价于 fpg；1) fpg参数(mahout org.apache.mahout.fpm.p

2014-12-16 16:28:41 3710

原创 Mahout0.9—Hadoop2.20—协同过滤算法

1. Mahout0.9—Hadoop2.20—协同过滤算法1.1. 基于物品的协同过滤推荐函数Mahout支持推荐函数，通过mahout –-help 查看：函数1：itemsimilarity: : Compute the item-item-similarities for item-based collaborative filteringitemsimilarity是计算

2014-12-16 16:27:24 2199

原创 Mahout0.9 ——hadoop2.2.0编译与安装

1. Mahout0.9 ——hadoop2.2.0编译与安装1.1. 基础准备1) JDK安装2) Maven安装见《1、基础准备（JDK、Maven、服务器配置）》。1.2. 下载Mahout源码Mahout官方下载地址：http://archive.apache.org/dist/mahout/ 可以直接下载官方已经编译好的包，mahout

2014-12-16 16:24:28 2947

原创 Ambari集成Hadoop安装

1. 安装准备1.1. 操作系统CentOS6.51.2. 文件准备ambari安装有两种方式：1.在线安装2.离线安装官网提供的在线安装的repository地址不正确，需要修改，另外在线安装很慢，所以成功机率很低，本文介绍离线安装，需要下载3个安装包：HDP-2.0.6.1-centos6-rpm.tar.gz、HDP-UTILS-1.1.0.16-ce

2014-12-16 16:06:27 9666

原创 hadoop2.2.0编译与安装

1、hadoop2.2.0编译与安装1.1.基础准备见《基础准备（Hadoop/Spark/Mahout安装准备）》。1.2.下载hadoop源码hadoop官方下载地址：http://www.eu.apache.org/dist/hadoop/common/hadoop-2.2.0下载地址http://mirrors.cnnic.c

2014-12-16 15:58:28 1632

原创基础准备（Hadoop/Spark/Mahout安装准备）

1. 基础准备（Hadoop/Spark/Mahout安装准备）1.1.操作系统CentOS6，或者ubuntu 12。1.2.JDK安装1)检查本机已安装JDK版本卸载系统自带的jdk版本及旧版本。[root @master ~]$ rpm -qa |grep javatzdata-java-2013b-1.el6.noarchjava-1

2014-12-16 15:54:28 3765

Spark MLlib 机器学习