spark
文章平均质量分 84
hopeatme
一切从头做起
展开
-
spark 1.6 MLlib
MLlib 是spark 机器学习的库,它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集,包括:分类,回归,聚类,协同过滤,降维,以及深层优化策略和上层管道API(pipeline). 分为两个包:1 spark.mllib 包含基于RDD的原始API 2 spark.ml 包含上层操作DataFrame 的API, 可以构造机器学习管道, 推荐使用sp翻译 2016-01-19 21:26:52 · 2683 阅读 · 0 评论 -
Spark MLlib 1.6 -- 数据类型篇
译者续: 2016年过完年回来,把之前翻译spark mllib部分从新整理,继续未完成的工作。 MLlib 是spark 机器学习的库,它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集,包括:分类,回归,聚类,协同过滤,降维,以及深层优化策略和上层管道API(pipeline). 分为两个包:1 spark.mllib 包含基于RDD的原始A翻译 2016-02-19 21:10:29 · 1634 阅读 · 0 评论 -
Spark MLlib 1.6 -- 统计基础篇
· Summary statistics· Correlations· Stratified sampling· Hypothesis testing· Streaming Significance Testing· Random data generation· Kernel density estimation2.1 统计概览在Statistic翻译 2016-02-19 21:13:24 · 2505 阅读 · 0 评论 -
Spark MLlib 1.6 -- 分类和回归篇
· Linear models· classification (SVMs, logistic regression)· linear regression (least squares, Lasso, ridge)· Decision trees· Ensembles of decision trees· random forests· gradient-boost翻译 2016-02-19 21:42:19 · 4151 阅读 · 0 评论 -
Spark 2.1.0 -- Spark Streaming Programming Guide
概述spark streaming 是核心spark api的扩展,提供可伸缩、高吞吐和容错的流处理接口,用来处理实时在线流数据。流数据的输入源可以是kafka, flume , kinesis 或tcp sockets,流数据处理可以用map ,reduce , join 和window表达的复杂算法。甚至,可以对流数据使用spark 机器学习或图处理算法。最终处理结果可以直接写到文件系统、翻译 2017-03-11 00:52:35 · 884 阅读 · 0 评论 -
Spark 2.1 -- spark SQL , Dataframe 和DataSet 指南
OverviewSQLDatasets and DataFramesGetting StartedStarting Point: SparkSessionCreating DataFramesUntyped Dataset Operations (aka DataFrame Operations)Running SQL Queries ProgrammaticallyGloba翻译 2017-03-29 23:56:50 · 10860 阅读 · 0 评论 -
Spark ML 2.1 --Pipelines
首先要引入概念 机器学习管道(ML pipelines),ML pipelines 提供基于DataFrames的高级API , 此API可以帮忙开发者创建和实践ML 管道。Table of ContentsMain concepts in PipelinesDataFramePipeline componentsTransformersEstimato翻译 2017-04-29 13:05:43 · 1348 阅读 · 0 评论 -
Spark2.X 原码分析 ---- Rpc初探
Spark 2.0 之后,master 和worker 之间完全不使用akka 通信,改用netty实现。先不说别的,单就netty的热门度就可以承担起这个重任,言归正题。本文以master代码为例,讲解RpcEnv , RpcEndpoint ,RpcEndpointRef , 及NettyRpcEnv, NettyRpcEndpointRef 之间关系。先呈上org.a原创 2017-04-16 14:17:33 · 1279 阅读 · 0 评论 -
Spark ML 2.1 -- Extracting, transforming and selecting features (持续更新)
本章节覆盖特征相关的算法部分,可粗分为以下几组: 1> 抽取: 从原始数据中抽取特征2> 变换:缩放,转化,或修改特征3> 选择: 从特征集合中选择子集4> Locality Sensitive Hashing (LSH) : 将特征变换和其它算法组合在一起的一类算法。目录: Feature ExtractorsTF-IDFWord2VecCo翻译 2017-05-02 22:44:23 · 868 阅读 · 0 评论