![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
Zhen大虾
这个作者很懒,什么都没留下…
展开
-
Spark(六) Spark MLlib
一 Spark MLlib 数据挖掘=机器学习+数据库环境 Spark MLlib是基于海量数据的机器学习算法库,提供了分类、回归、聚类、协同过滤、降维等功能 包:spark.ml基于的是DataFrame的数据抽象 二 Spark MLlib的机器学习流水线 1 transformer: 即训练得到的模型,通过transformer对数据进行预测 方法: transform(DataFrame) 2 Estimator:即算法 方法:fit()方法进行模型训练 Notice:DataFr.翻译 2020-11-10 10:39:41 · 330 阅读 · 0 评论 -
Spark(五)Spark Streaming
一 流数据 针对两种典型的数据:静态数据和流数据,对应两种不同的计算-批量计算和实时计算 批量计算:MapReduce,一次性处理大规模的静态数据,无法满足秒级响应 流计算:实时获取不同数据源的海量数据,经过实时分析处理,获得有价值的信息;流数据的价值随着时间流逝慢慢降低 流数据框架:高性能(每秒能处理几十万条数据),海量式(支持TB、PB级的数据规模),实时性(低延迟、达到秒级别及毫秒级别),分布式(支持大数据基本架构,平滑扩展),易用性(用户可快速开发和部署),可靠性(可靠地处理流数据)翻译 2020-11-08 20:42:53 · 141 阅读 · 0 评论 -
Spark(四) Spark SQL
面向关系型数据库的查询和存储 Spark SQL的抽象数据类型是DataFrame,是带有Schema信息的RDD。支持的语言有Java Scala Python Spark SQL可以对结构化数据、半结构化数据和非结构化数据进行处理 对于关系型数据库存储的结构化数据而言,主要做的是综合性查询分析,如汇总、求和等 count(*),average,sum Spark SQL的DataFrame打通了关系数据查询和机器学习等复杂分析算法的通道 一. DataFrame 1.Spark是对RDD进翻译 2020-11-08 20:06:22 · 107 阅读 · 0 评论 -
PySpark笔记(一)
python on spark: 使用spark提供的pyspark库来编写spark应用程序 RDD: resilient distributed dataset transformations: map, flatMap,filter, distinct, reduceByKey,mapPartitions,sortBy actions: collect, collectAsMap, reduce, countByKey/countByValue, take, first ...翻译 2020-10-28 16:04:16 · 163 阅读 · 0 评论