spark
文章平均质量分 91
moledyzhang
这个作者很懒,什么都没留下…
展开
-
spark分布式集群环境搭建(hadoop之上)
本文介绍的spark环境搭建是基于hadoop之上的,hadoop集群环境搭建在之前的文章中已经介绍过,请前往查看。scala安装scala下载wget https://downloads.lightbend.com/scala/2.12.4/scala-2.12.4.tgz具体的版本可去官网http://www.scala-lang.org/download/根据实际情况选安装和配置scalata原创 2017-12-19 16:00:46 · 2886 阅读 · 0 评论 -
jupyter安装及配置scala、spark、pyspark内核
安装 jupyter和python本文使用Anaconda安装jupyter。 Anaconda可以看做Python的一个集成安装,安装它后就默认安装了python、IPython、集成开发环境Spyder和众多的包和模块也可参照https://docs.anaconda.com/anaconda/install/linux进行安装下载 AnacondaAnaconda的官网下载地址https:/原创 2017-12-20 14:55:36 · 13793 阅读 · 3 评论 -
spark算子实战(三)
这篇文章将继续介绍spark算子之Actions算子。Actions算子 算子 说明 foreach 对RDD中的每个元素应用f函数。 saveAsTextFile 将RDD保存为文本文件。路径path可以是本地路径或HDFS地址,保存方法是对RDD成员调用toString函数。 saveAsObjectFile 用于将RDD中的元素序列化成对象,存储到文件中。对于HD原创 2017-12-27 11:53:18 · 532 阅读 · 0 评论 -
spark算子实战
spark算子什么是算子百度百科上对算子的解释是这样的,算子是一个函数空间到函数空间上的映射O:X→X。广义的讲,对任何函数进行某一项操作都可以认为是一个算子,甚至包括求幂次,开方都可以认为是一个算子,只是有的算子我们用了一个符号来代替他所要进行的运算罢了,所以大家看到算子就不要纠结,他和f(x)的f没区别,它甚至和加减乘除的基本运算符号都没有区别,只是他可以对单对象操作罢了(有的符号比如大于、小于原创 2017-12-21 16:27:58 · 576 阅读 · 0 评论 -
spark算子实战(二)
在spark算子实战中介绍了Value型Transformation算子,这里将继续介绍Key-Value型Transformation算子,Actions算子将在spark算子实战(三)中介绍。Key-Value型的Transformation算子 算子 说明 mapValues 针对[K,V]型的V值进行map操作。 combineByKey 使用用户设置好的聚合函数对每个原创 2017-12-25 19:05:06 · 653 阅读 · 0 评论 -
Spark SQL及实例
什么是Spark SQLSpark SQL是Apache Spark用于处理结构化数据的模块。Spark SQL允许使用SQL或熟悉的DataFrame API查询Spark程序内的结构化数据。Spark SQL支持多语言编程包括Java、Scala、Python和R,可以根据自身喜好进行选择。本文中所涉及的Spark SQL代码示例均使用python语言。Spark SQL的核心-DataFram原创 2017-12-27 19:14:54 · 11474 阅读 · 2 评论 -
用spark做web日志分析
本文以服务器日志分析为例,给大家展示真实场景中,怎么用pySpark去完成大数据的处理和分析的。总述这里的应用主要包括4部分: Part 1: Apache Web服务器日志格式 Part 2: web服务器日志初步解析 Part 3: web服务器日志进一步解析和可视化 Part 4: 对返回404的结果做分析part 1 Apache Web服务器日志格式这里用到的服务器日志格式是 Ap原创 2018-01-04 15:36:02 · 6090 阅读 · 0 评论