spark
神兽牛
这个作者很懒,什么都没留下…
展开
-
Spark ML自定义选择最优模型算法深入剖析-Spark商业ML实战
本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。 1 自定义选择最优模型 什么叫做自定义模型?其实就是不借助Spark官方支持的交叉验证和训练验证拆分,而是根据实际场景进行自定...原创 2018-11-18 18:18:21 · 825 阅读 · 0 评论 -
Spark ML 基于Iris数据集进行数据建模及回归聚类综合分析-Spark商业ML实战
本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。 1 Iris数据集(开灶做饭) Iris数据集是常用的分类实验数据集,由Fisher于1936收集整理。Iris也称鸢尾花...原创 2018-11-18 22:24:14 · 1210 阅读 · 1 评论 -
Spark ML Pipeline模型选择及超参数评估调优深入剖析 -Spark商业ML实战
本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。 1 燃烧吧!模型选择 模型选择可以针对单个Estimtor进行,比如:逻辑回归,决策树等。 模型选择同样可以基于整套流水线进...原创 2018-11-18 11:40:15 · 1255 阅读 · 2 评论 -
Spark ML统计指标以及最优参数评估指标深入剖析-Spark商业ML实战
本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系 1 统计学指标(考核指标) 1.1 平均值 平均值的理论:所有数据之和除以数据点的个数,以此表示数据集的平均大小。其数学定义为 ...原创 2018-11-17 23:42:47 · 1587 阅读 · 0 评论 -
Spark ML 特征转换及处理算子实战技巧-Spark商业ML实战
本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。 1 燃烧吧特征转换 1.1 Tokeniization 分词器技术(RegexTokenizer) Tokenization是...原创 2018-11-17 17:17:52 · 375 阅读 · 0 评论 -
Spark ML 基于文本的特征提取实战技巧-Spark商业ML实战
本套系列博客从真实商业环境抽取案例进行总结和分享,并给出Spark商业应用实战指导,请持续关注本套博客。版权声明:本套Spark商业应用实战归作者(秦凯新)所有,禁止转载,欢迎学习。QQ联系方式为:1120746959 1 特征工程处理的分类 可以看到spark的特征工程分为以下4个方向: Extraction: Extracting features from “raw” data Trans...原创 2018-11-17 15:39:07 · 410 阅读 · 0 评论 -
kafka ISR设计及水印与leader epoch副本同步机制深入剖析-kafka 商业环境实战
版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。 1 帽子理论(Gilbert 和 Lynch ) 一致性 any read operation that b...原创 2018-11-23 01:29:56 · 788 阅读 · 0 评论 -
Spark ML 数值类型与数据汇总基础统计算法详解-Spark商业ML实战
1 Spark ML 架构 Spark ML由分类,回归,聚类,协同过滤,降维等。其中基于机器学习算法可以构建流水线PipeLine。 spark基于DataFrames高层次API,通过机器学习管道构建整套机器学习算法库。 2 特征向量化 只有把原始特征转化为特征向量,才能用于机器学习模型的训练。常用特征主要有以下几种: 数值特征:主要针对数值类型。 类别特征:类别特征是可穷举的值。类别特征...原创 2018-11-17 00:16:31 · 759 阅读 · 0 评论 -
Spark ML流式在线学习模型初步构建分析-Spark商业ML实战
本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。 1 Spark ML流式在线学习初步讲解 目前SparkStreaming 支持Streaming Linear Regres...原创 2018-11-19 01:22:29 · 522 阅读 · 0 评论 -
Spark Streaming调优参数及最佳实践深入剖析-Spark商业调优实战
本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。QQ邮箱地址:[email protected],如有任何商业交流,可随时联系。 1 开门见山 1.1 优化1:进行HA机制处理-针对updateStateByKey与window等有状态的操作 HA高...原创 2018-11-19 00:26:32 · 794 阅读 · 0 评论