Spark
文章平均质量分 77
a95473004
一个人就是一只军队
展开
-
Spark submit deploy_mode cluster 中的第三方JAR包
本文介绍了一个种解决spark在cluster模式下提交作业无法添加第三方JAR包并引起class not found 异常的解决方案原创 2016-12-26 15:30:33 · 5936 阅读 · 1 评论 -
如何在spark-streaming中获取通过kafka传递的flume信息header
默认模式下,Spark-streaming只能拿到flume tail到的文字,但是某些情况下我们希望spark也能处理一些header中的内容。譬如说上述配置文件中在tail的同时,我们还向header中添加了timestamp以及host信息。那么如何将header传递给spark呢?原创 2016-12-27 16:58:57 · 3968 阅读 · 3 评论 -
Spark各类算法的应用场景
SparkMlib是Spark项目的其中一个模块,包含了当前比较热门的机器学习算法,这些算法API主要分成两种。ML和MLIB。本文对官方文档中描述的一些算法和工具进行了简单的介绍。ML主要针对DataFrame,MLIB则面向RDD,算法的种类基本一致,我个人比较偏向于ML,结构化的数据更易操作一些。Classification 分类算法包括逻辑回归,决策树已经原创 2017-01-23 10:22:40 · 5487 阅读 · 0 评论 -
利用gradle shadowjar构建包含依赖的JAR包
利用gradle shadow构建包含依赖的JAR包原创 2016-12-26 15:24:33 · 26266 阅读 · 2 评论