![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
bsf5521
这个作者很懒,什么都没留下…
展开
-
spark在eclipse中遇到的问题及处理措施_标记下
环境:cdh5.9 spark1.6本地开发环境:下载了最新的ide:scala-SDK-4.6.0-vfinal-2.12-win32.win32.x86_64 开始没有使用maven,而是使用eclipse直接加jar包的方式。下面截图报错:More than one scala library found in the build path (G:/scala-SD原创 2017-05-23 16:19:44 · 408 阅读 · 0 评论 -
sparksql dataframe
概述(Overview)Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。DataFramesDataFrame是一个分布式的数据集合,该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表,也可以理解为R/Python原创 2017-08-03 16:39:10 · 358 阅读 · 0 评论 -
sparksql and datasource
数据源(Data Source)Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。Data Sources这部分首先描述了对Spark的数据源执行加载和保存的常用方法,然后对内置数据源进行深入介绍。一般Load/Sa原创 2017-08-03 16:37:42 · 354 阅读 · 0 评论 -
kafka+sparkstreaming wordcount
概要Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合,源码中的例子如何真正跑起来,文档不是很多也不详细。本篇主要讲述如何运行KafkaWordCount,这个需要涉及Kafka集群的搭建,还是说的越仔细越好。搭建Kafka集群原创 2017-08-03 16:36:35 · 267 阅读 · 0 评论 -
sparksql cachetable 及 uncachtable
Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。 假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下: 执行该代码之后,文本文件会存储于本地路径:/tmp/datas,它包含1000行测试数据,原创 2017-08-03 16:34:16 · 588 阅读 · 0 评论 -
spark streaming + kafka
我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。(如有任何纰漏欢原创 2017-08-03 16:31:34 · 563 阅读 · 0 评论 -
spark 操作hbase及mysql
在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文对spark操作hbase和mysql的内容进行总结,并且对自己踩到的一些坑进行记录。Spark Streaming持久化原创 2017-08-03 16:29:14 · 340 阅读 · 0 评论 -
spark1.6使用介绍
快速入门(Quick Start)本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用,然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读Spark Programming Guide。在按照本文进行操作之前,请确保已安装Spark。本文中的所有操作没有使用HDFS,所以您可以安装任何版本的Hadoop。Spar原创 2017-08-03 16:26:33 · 304 阅读 · 0 评论 -
spark wordcount
wordcount原创 2017-08-02 14:10:45 · 260 阅读 · 0 评论 -
spark rdd操作API
RDD的基础操作API介绍:操作类型函数名作用转化操作map()参数是函数,函数应用于RDD每一个元素,返回值是新的RDDflatMap()参数是函数,函数应用于RDD每一个元素,将元素数据进行拆分,变成迭代器,返回值是新的RDDfilter()参原创 2017-08-02 14:07:07 · 387 阅读 · 0 评论 -
spark-cluster及yarn-client说明
spark on yarn 的两种模式1)yarn-cluster:我们一般用于生产使用2)yarn-client:适用于交互、调试,能够立即看到app的输出Yarn-cluster和yarn-client的区别在于appMaster:yarn appMaster,每个yarn app实例有一个appMaster进程,是为app启动的第一个container;负责从ResourceMa原创 2017-08-02 13:49:53 · 294 阅读 · 0 评论 -
spark 一些算子的使用及优化
1、MapPartitionsspark中,最基本的原则,就是每个task处理一个RDD的partition。MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,funct原创 2017-08-02 13:40:44 · 1958 阅读 · 0 评论 -
spark操作关系型数据库报错处理
spark 1.4版本:sqlContext.read.jdbc(url,"(select * from student2 ) tables ",props)过程中报错:16/03/31 09:58:26 ERROR yarn.ApplicationMaster: User class threw exception: java.sql.SQLException原创 2017-08-01 11:17:41 · 466 阅读 · 0 评论 -
cdh spark history无法查看历史数据
问题:新装cdh5.9,使用新建的hadoop用户运行spark没有问题,但是查看spark history的时候发现无法查看但是发现文件是存在的:如图可见:发现系统默认是用spark用户运行的,使用hadoop fs -chown -r spark:spark 后历史文件可以查看,但是hadoop用户新执行的任务都是hadoop:hadoop仍然不可以查看。故怀疑是执行原创 2017-06-28 09:54:33 · 2741 阅读 · 0 评论 -
spark vs storm
对比点StormSpark Streaming实时计算模型纯实时,来一条数据,处理一条数据准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善原创 2017-08-03 16:41:24 · 322 阅读 · 0 评论