spark
文章平均质量分 69
简牧
架构,大数据,机器学习,互联网金融,写有用的博客!
展开
-
ML Pipeline —— spark官网译文
ML Pipeline提供一套统一的建立于DataFrames之上高级别API来帮助使用者创建和调优实用的机器学习流水线(pipeline)。翻译 2016-09-28 14:13:08 · 1026 阅读 · 0 评论 -
spark点点滴滴 —— spark入门
spark入门,概述,spark-shell的使用,spark api编程原创 2016-09-08 16:34:20 · 955 阅读 · 0 评论 -
spark点点滴滴 —— 基础原理和基本架构
概述Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 spark原创 2017-03-28 18:14:30 · 424 阅读 · 0 评论 -
spark点点滴滴 —— 运行scala任务异常处理
spark版本:2.0.1 最近在用spark提交scala语言写的任务时,提交任务总是失败,异常如下:17/05/05 18:39:23 ERROR yarn.ApplicationMaster: User class threw exception: java.lang.NoSuchMethodError: scala.reflect.api.JavaUniverse.runtimeMirro原创 2017-05-05 18:38:08 · 2267 阅读 · 0 评论 -
spark点点滴滴 —— 认识spark sql的DataFrame和DataSet
概述spark的DataFrames和DataSets是spark SQL中的关键概念,相比于RDD,DataFrame更能描述数据类型,因此是spark sql的基础类型,同时在spark 2.0.x及其以后的版本中,spark的机器学习也会逐渐替换成基于DataFrame的api,所有我们有必要了解spark的DataFrame相关概念。 spark sql在spark框架中的位置: 我原创 2017-03-31 15:59:52 · 3920 阅读 · 0 评论 -
spark点点滴滴 —— spark streaming+kafka流式计算实战
概述本篇不会讲spark streaming原理,会直接进入实战,因此建立在你对spark有了基本的了解基础之上。 不同于storm等流式计算框架的设计,spark streaming的流式计算框架本质上还是spark的批处理框架,只是将流式数据按时间维度切分为细粒度的批处理框架,因此了解spark的话spark streaming应该也不难理解。 我们以一张图来直观的看看spark strea原创 2017-03-29 11:12:18 · 4457 阅读 · 0 评论 -
spark点点滴滴 —— 开发运行scala程序
概述环境:spark 2.0.1 运行模式:spark on yarn我们用scala语言编写的程序如何在spark集群上提交任务并运行呢,我们知道一个java程序spark提交命令如下:spark-submit --class className --name jobName --master yarn-cluster ./xxx-SNAPSHOT.jar其中clasName是入口main函数原创 2017-05-08 15:50:27 · 1566 阅读 · 0 评论