spark
文章平均质量分 88
24koby
明天会更好
展开
-
spark机器学习-mllib基础
一 MLlib简介二 MLlib架构三 数据类型四 基础统计MLlib提供了很多统计方法,是对RDD格式数据的统计,包括摘要统计、相关统计、分层统计、假设检验、随机数生成、流显著性检验、核密度估计等。1 摘要统计对于RDD[Vector]类型的列统计信息,MLlib提供了一种名为colStats()的统计方法,即摘要统计方法。调用该方法可以计算每列的最大值、最小值、均值、方...原创 2019-10-11 10:47:05 · 245 阅读 · 0 评论 -
spark机器---聚类
import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.clustering.KMeansimport org.apache.spark.ml.feature.{OneHotEncoder, StandardScaler, VectorAssembler}import org.apache.spark.sql.SparkS...原创 2019-10-15 09:41:03 · 185 阅读 · 0 评论 -
spark机器学习---聚类模型
spark目前支持的聚类算法有:K均值,三层贝叶斯概率模型,二分K均值,高斯混合原创 2019-10-14 16:07:14 · 111 阅读 · 0 评论 -
spark机器学习---回归算法
import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.evaluation.RegressionEvaluatorimport org.apache.spark.ml.feature.{OneHotEncoderEstimator, VectorAssembler, VectorIndexer}import org.ap...原创 2019-10-14 15:28:38 · 660 阅读 · 1 评论 -
spark机器学习--分类算法
数据为stumbleupon数据集:链接:https://pan.baidu.com/s/1YNoxbQqR_zntigKMUlNhhQ提取码:j7fnimport org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification._import org.apache....原创 2019-10-14 10:56:56 · 419 阅读 · 0 评论 -
spark机器学习-七 推荐模型
协同过滤简单来说就是利用某个兴趣相投、拥有共同经验之群体的喜好来为使用户推荐其感兴趣的资讯,个人通过合作的机制给予咨询相当程度的回应并记录下来达到过滤的目的,进而帮助别人筛选。import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.evaluation.RegressionEvaluatorimport org.apac...原创 2019-10-12 10:03:18 · 430 阅读 · 0 评论 -
spark机器学习五----模型选择与优化
一 模型选择二 交叉验证交叉验证import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel}import org.apache.spark.ml.evalua...原创 2019-10-10 09:32:36 · 186 阅读 · 0 评论 -
spark机器学习二 pipeline工作流
import org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.ml.linalg.Vectorimport org.apache.spark.ml.param.ParamMapimport org.ap...原创 2019-10-09 16:04:38 · 262 阅读 · 1 评论 -
spark机器学习 一构建机器学习系统
本内容都是基于ml-100k数据集操作1 数据特征分析from pyspark.sql import SparkSessionfrom pyspark.sql import Rowimport matplotlib.pyplot as pltimport numpy as npspark = SparkSession.builder.appName("pyhton").conf...原创 2019-10-09 10:45:31 · 208 阅读 · 0 评论 -
spark机器学习
基本数据类型1 本地向量本地向量:稠密向量和稀疏向量稠密向量使用双精度浮点型数组来表示每一维的元素,稀疏向量则是基于一个整数索引数组和一个双精度浮点型的值数组。def main(args: Array[String]): Unit = { //创建本地稠密向量 val dv:linalg.Vector = Vectors.dense(2.0,0.0,8.0) ...原创 2019-07-15 20:06:36 · 309 阅读 · 0 评论 -
spark运行错误解决
问题:”java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.解决...转载 2019-07-01 09:15:10 · 423 阅读 · 0 评论 -
spark教程
目录目录一 spark设计与运行原理1 Spark简介2 Spark特点3 Spark生态二 Spark的安装与运行2 运行实例3 Spark的交互式操作入门4 更多的交互式操作三 RDD的设计与原理1 RDD编程基础1.1 初始化Spark1.2 使用shell1.3创建RDD1.4RDD操作1.3 行动操作1.4 持久化...原创 2019-07-22 14:40:06 · 282 阅读 · 0 评论 -
Spark学习
一 spark设计与运行原理1 Spark简介Spark是由美国加州大学伯克利分校AMP实验室于2009年开发,是基于内存计算的大数据并行框架,可用于构建大型的、低延时的数据分析应用程序。2013年成为Apache下的开源项目。Apache Spark是一种快速通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级...原创 2019-07-04 21:26:33 · 328 阅读 · 0 评论 -
window下idea搭建spark程序注意
idea配置spark和scala版本时需要和spark集群版本和scala的版本一致原创 2019-06-28 09:41:31 · 169 阅读 · 0 评论 -
spark的maven依赖
<properties> <spark.version>2.4.3</spark.version> <scala.version>2.11</scala.version> </properties> <dependencies> <de...原创 2019-07-02 18:59:18 · 12011 阅读 · 0 评论