自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Spark机器学习

Spark机器学习Pipelines中的主要概念MLlib 提供的API可以通过Pipelines将多个复杂的机器学习算法结合成单个pipeline或者单个工作流。这个概念和scikit-learn里的概念类似,根据官方的说法是,此抽象概念的设计灵感来自于scikit-learn。·        DataFrame:通过Spark SQL 组件里的DataFrame作

2017-03-07 19:08:22 307

原创 Zeppelin使用心得

Zeppelin使用心得此次试验的项目是:Zeppelin+Anaconda2(包括Tensorflow等深度学习库)+Spark On Yarn+SQL On Zeppelin整个环境的搭建的过程。试验目标:将该环境搭建好了之后,可以在zepplin上基于web界面进行scala和python的编程,并且可以直接通过web界面进行深度学习建模并通过Spark集

2017-02-25 12:18:39 1603

原创 Beam 超实用examples之Pi值计算

Beam Pi值计算​Beam刚刚开源不是很久,快2个月了。目前的版本是0.5.0版本。官方的源码中提供了4个examples.无奈这四个案例都只是WordCount的四种不同的实现。作为一个从Spark进入大数据殿堂的笔者来说,用过n多次的SparkPi的我,怎么能忍受竟然没有Pi实现的example呢。假如有了这个案例,可以非常方便的无论在开

2017-02-23 09:23:42 356

原创 Apache Beam程序向导4

今天在集群上实验Beam On Spark的时候,遇到一个坑爹的问题,这个问题总结起来是一个java.lang.NoClassDefFoundError错误,具体错误如下图1所示图1 错误提示该错误提示SparkStreamingContext没有定义,这说明java虚拟机加载进来了SparkStreamingContext,也就是相应的代码包已经导入进来了,这个阶段没有什

2017-02-22 11:32:32 577

原创 Apache Beam处理Kafka数据源源码分析

Apache Beam将Kafka作为数据输入的实践案例源码分析: 首先,我们建立一个maven工程,在添加原始的Beam依赖之后,还需要添加如下的支持Kafka的依赖   org.apache.beam    beam-sdks-java-io-kafka    0.5.0依赖下载完成之后,我们就可以使用像诸如K

2017-02-14 11:35:26 1654

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除