大数据-SparkMllib
文章平均质量分 73
汪本成
这个作者很懒,什么都没留下…
展开
-
推荐系统实践2---修改后的电影推荐系统(基于MLlib、SparkSQL、MYSQL、HDFS)
之前写的太简单,这次加点存储和修改点代码来做次比较完善的推荐流程,但是只是基于离线,没有写实时模块,大家可以关注,接下来有时间会写到代码如下:package mllibimport java.text.SimpleDateFormatimport java.util.Dateimport org.apache.log4j.{Level, Logger}i原创 2016-07-06 11:41:01 · 1500 阅读 · 0 评论 -
SparkMLlib---SGD随机梯度下降算法
代码:package mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.HashMap/** * 随机梯度下降算法 * Created by 汪本成 o原创 2016-08-05 00:52:54 · 2766 阅读 · 0 评论 -
SparkMLlib----数理统计的基本概念
基本统计量数理统计中,基本统计量包括数据的平均值、方差,这是一组求数据统计量的基本内容。在MLlib中,统计量的计算主要用到Statistics类库,如下表:类型名称释义colStats以列为基础计算统计量的基本数据chiSqTest对数据集内的数据进行皮尔逊距离计算,根据参量的不同,返回值格式有差异corr对两个数据集进原创 2016-08-04 23:57:09 · 2704 阅读 · 0 评论 -
SparkMLlib---基于余弦相似度的用户相似计算
package mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.Map/** * Created by 汪本成 on 2016/8/4. */object UserSimilar原创 2016-08-04 21:11:55 · 9120 阅读 · 0 评论 -
SparkMLlib---Vectors、Matrix
介绍 关于矩阵是我们Spark机器学习里面最重要的一部分知识之一了,今天就介绍下矩阵的使用与实战代码 矩阵首先分为密集矩阵和稀疏矩阵,这个参考我之前一篇博客里面写的,还是介绍的比较详细的,不清楚的也可以去看看Spark源码里面对他们两个的定义,我主要是讲讲运用的部分,这个请直接看下面代码部分就行; 然后就是本地矩阵,这个适合单机部署,很方便,运用部分也请看实战部分; 最原创 2016-08-03 21:51:28 · 4445 阅读 · 0 评论 -
spark高级数据分析实战---随机森林实现
补充决策树那块没写完的,废话不多说,直接上代码,详解可以看注释内容package mllib.treeimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.evaluation.MulticlassMetricsimport org.apache.spark.mllib.linalg原创 2016-07-18 23:34:13 · 4905 阅读 · 7 评论 -
spark高级数据分析实战---用决策树预测森林植被
这是我写的这本书的第二个程序,第一个推荐系统由于时间我没及时发回头会补充给大家。原创 2016-07-18 22:37:22 · 2409 阅读 · 0 评论 -
常用的几种算法总结
用图结构的形式总结知识,每次都小小的总结了一下,这里集中记录一下:1、线性回归2、广义线性回归(Logistic和泊松回归)3、主成分分析4、方差分析5、决策树6、相关规则1、线性回归2、广义线性回归(Logistic和泊松回归)3、主成分分析4、方差分析5、决策树原创 2016-07-06 20:31:40 · 798 阅读 · 0 评论 -
spark高级数据分析---网络流量异常检测(升级实战)
在我的上一篇里我写的那个只是个人对KMeans聚类在这个项目中的一部分,今天花了很长时间写完和完整的运行测试完这个代码,篇幅很长,都是结合我前面写的加上自己完善的异常检测部分,废话不多说,直接代码实战:package internetimport org.apache.spark.mllib.clustering.{KMeansModel, KMeans}import原创 2016-07-24 22:14:10 · 9368 阅读 · 5 评论 -
spark高级数据分析实战--网络流量异常检测1
项目结构图项目结构如下图所示CountClass.scalapackage internetimport org.apache.spark.mllib.clustering.{KMeans, KMeansModel}import org.apache.spark.mllib.linalg.Vectorimport org.apache.spark.r原创 2016-07-22 23:58:18 · 5713 阅读 · 0 评论 -
推荐系统实践1---基于spark ALS做的电影推荐,参考网上的做的,能跑起来
package recommendationimport org.apache.log4j._import org.apache.spark._import org.apache.spark.mllib.recommendation.{MatrixFactorizationModel, ALS, Rating}import org.apache.spark.rdd._import sc原创 2016-06-10 01:42:07 · 4270 阅读 · 16 评论 -
SparkMLlib---LinearRegression(线性回归)、LogisticRegression(逻辑回归)
1、随机梯度下降首先介绍一下随机梯度下降算法:1.1、代码一:package mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.HashMap/**原创 2016-08-07 18:38:13 · 4590 阅读 · 5 评论