Spark mllib
瓦力冫
喜欢看点书,跑跑步,热爱游戏编程
展开
-
Spark mllib 列统计
Spark MLlib提供了一种叫colStats()的统计方法,调用该方法会返回一个类型为MultivariateStatisticalSummary的实例。通过这个实例看,我们可以获得每一列的最大值,最小值,均值、方差、总数等。1 2 3 4 56 7 1 5 93 5 6 3 13 1 1 5 6val data_path = "file:///Users/walle/Document...原创 2018-07-15 18:01:54 · 464 阅读 · 0 评论 -
Spark mllib LinearRegression
1. rdd 例子package com.immoocimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.regres...原创 2018-07-15 18:02:33 · 610 阅读 · 0 评论 -
Spark mllib 逻辑回归
逻辑回归逻辑回归其实是一个分类算法而不是回归算法。通常是利用已知的自变量来预测一个离散型因变量的值(像二进制值0/1,是/否,真/假)。简单来说,它就是通过拟合一个逻辑函数(logit fuction)来预测一个事件发生的概率。所以它预测的是一个概率值,自然,它的输出值应该在0到1之间。 假设你的一个朋友让你回答一道题。可能的结果只有两种:你答对了或没有答对。为了研究你最擅长的题目领域,你做了各种...原创 2018-07-15 18:03:16 · 809 阅读 · 0 评论 -
Spark mllib 保序回归
从该序列的首元素往后观察,一旦出现乱序现象停止该轮观察,从该乱序元素开始逐个吸收元素组成一个序列,直到该序列所有元素的平均值小于或等于下一个待吸收的元素。举例:原始序列:<9, 10, 14>结果序列:<9, 10, 14>分析:从9往后观察,到最后的元素14都未发现乱序情况,不用处理。原始序列:<9, 14, 10>结果序列:<9, 12, 12>...原创 2018-07-15 18:04:01 · 499 阅读 · 0 评论 -
Spark mllib 贝叶斯分类
贝叶斯定理已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率:表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们...原创 2018-07-15 18:04:39 · 807 阅读 · 0 评论 -
Spark mllib SVM
package com.immooc.sparkimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.classification.SVMWithSGDimport org.apache.spark.mllib.util.MLUtilsimport org.apache.spark.{SparkConf...原创 2018-07-31 15:28:07 · 765 阅读 · 0 评论 -
Spark mllib 决策树
package com.immooc.sparkimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.tree...原创 2018-07-31 15:29:18 · 469 阅读 · 0 评论 -
Spark mllib k-means 聚合
K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。package com.immooc.sparkimport org.apache.log4j.{Level, Logger}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.lin...原创 2018-07-31 15:31:21 · 395 阅读 · 0 评论 -
Spark mllib FP Growth
1.1.1 基本概念关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。关联规则的相关术语如下:(1)项与项集这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Item),则若干项的集合为项集,如{啤...原创 2018-07-31 15:38:14 · 381 阅读 · 0 评论