spark
文章平均质量分 69
stark_summer
这个作者很懒,什么都没留下…
展开
-
那些年我们对Spark RDD的理解
这篇文章想从spark当初设计时为何提出RDD概念,相对于hadoop,RDD真的能给spark带来何等优势。之前本想开篇是想总体介绍spark,以及环境搭建过程,但个人感觉RDD更为重要铺垫 在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数原创 2015-12-09 15:57:31 · 34244 阅读 · 7 评论 -
Spark的日志配置
在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的,因为作业是提交到yarn的集群上,so 去yarn集群上看日志是很麻烦的,但有特别想看下print的信息,方便调试或者别的目的 在Spark的conf目录下,把log4j.properties.template修改为log4j.properties,原来的原创 2015-07-17 16:42:03 · 57226 阅读 · 4 评论 -
Exactly-once Spark Streaming from Apache Kafka
这篇文章我已经看过两遍了,收获颇多,抽个时间翻译下,先贴个原文链接吧,也给自己留个任务http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/原创 2015-08-25 06:59:13 · 25838 阅读 · 0 评论 -
如何 tune spark jobs
最近几天阅读了下 cloudera一篇博客,个人感觉写的非常不错,我也懒着翻译了,感觉 文章 翻译成中文,会很墨迹和啰嗦,所以直接看原文吧http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/http://blog.cloudera.com/blog/2015/03/how-to-原创 2015-08-24 07:32:51 · 25227 阅读 · 0 评论 -
基于spark1.3.1的spark-sql实战-01
OK !好久不见,大家都忙着各自的事情,me too, 博客也好久木有更新了,因为一直比较忙spark sql 三个核心部分:1. 可以加载各种结构化数据源(e.g., JSON, Hive, and Parquet).2. 可以让你通过SQL ,spark 内部程序或者外部工具,通过标准的数据库连接(JDBC/ODBC)连接spark,比如一个商业智能的工具Tableau3.当原创 2015-05-19 13:43:26 · 25182 阅读 · 1 评论 -
ssg-2015.06.15~2015.06.18 总结
目前 ssg内公司内部 spark streaming 处理数据源是kafka 目前遇到最大的问题是,会延迟,例如我们配置1分钟让窗口计算一次,很有可能随着数据量大,我们计算时间会超过1分钟,这样就会导致卡死在哪里,streaming一直累计算出不了结果,而且从监控还看不出有问题,只有从结果监控发现结果出不来。 解决方案:增加kafka的partition配置,配合streaming的线程数,原创 2015-06-23 18:04:41 · 19474 阅读 · 1 评论 -
spark总体概况
1. spark vs hadoopPS:Databricks团队特别说明,为了和Hadoop对比,这次用于排序的Spark集群没有使用它们的内存缓存机制,他们也是用硬盘存储的中间结果! http://tieba.yunxunmi.com/mtieba-hadoop-kz-58b9e430a78747f7fb1ea9f9e6374597.html 但是我们要明白,spark的目标是与hadoop原创 2015-05-22 15:18:01 · 17471 阅读 · 0 评论 -
spark 查看 job history 日志
SPARK_HOME/conf 下:spark-defaults.conf 增加如下内容spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress truespark-env.sh 增加如下内容export SPARK_HISTORY_OPTS=”-原创 2015-06-11 17:05:09 · 33773 阅读 · 2 评论 -
基于spark1.3.1的spark-sql实战-02
Hive Tables将HIVE_HOME/conf/hive-site.xml 文件copy到SPARK_HOME/conf/下 When not configured by the hive-site.xml, the context automatically creates metastore_db and warehouse in the current direct原创 2015-05-19 17:33:20 · 16536 阅读 · 0 评论 -
Spark 性能相关参数配置详解-任务调度篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config.readthedocs.org/,主要是便于更新内容原创 2015-03-05 18:28:58 · 15218 阅读 · 0 评论 -
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版原创 2015-03-03 14:58:25 · 126850 阅读 · 7 评论 -
spark SQL编程动手实战-01
首先创建SparkContext上下文:接着引入隐身转换,用于把RDD转成SchemaRDD:接下来定义一个case class 来用于描述和存储SQL表中的每一行数据:接下来要加载数据,这里的测试数据是user.txt文件:我们创建好use.txt增加内容并上传到hdfs中:web控制台查询:hdfs命令查询:加原创 2015-03-02 18:24:23 · 17166 阅读 · 0 评论 -
spark内核揭秘-14-Spark性能优化的10大问题及其解决方案
问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2:shuffle原创 2015-01-22 10:35:06 · 26539 阅读 · 0 评论 -
Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKey、join、reduce、lookup等操作实践
下面看下union的使用:使用collect操作查看一下执行结果:再看下groupByKey的使用:执行结果:join操作就是一个笛卡尔积操作的过程,如下示例:对rdd3和rdd4执行join操作:使用collect查看执行结果:可以看出join操作完全就是一个笛卡尔积的操作原创 2015-01-26 11:31:34 · 17347 阅读 · 2 评论 -
Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02
接下来进行打包,使用Project Structure的Artifacts:使用From modules with dependencies:选择Main Class:点击“OK”:把名称改为SparkDemoJar:因为每台机器上都安装了Scala和Spark,所以可以把Scala和Spark相关的jar文原创 2015-02-12 13:02:04 · 14404 阅读 · 0 评论 -
Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count
Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count原创 2015-01-23 10:06:13 · 15274 阅读 · 1 评论 -
spark搭建环境涉及的linux命令(简单易用型(勿喷))
从一台服务器负责内容到另一台服务器: scp jdk-6u37-linux-x64.bin spark@10.126.45.56:/home/spark/opttar压缩和解压文件: 压缩 tar -cvf java.tar.gz java/ 解压: tar -xvf java.tar.gz配置java环境变量:去各种地方下载 jdk程序包 :jdk-6u3原创 2015-01-04 14:47:48 · 17419 阅读 · 0 评论 -
在 Databricks 可获得 Spark 1.5 预览版
我们兴奋地宣布,从今天开始,Apache Spark1.5.0的预览数据砖是可用的。我们的用户现在可以选择提供集群与Spark 1.5或先前的火花版本准备好几个点击。正式,Spark 1.5预计将在数周内公布,和社区所做的QA测试的版本。鉴于火花的快节奏发展,我们觉得这是很重要的,使我们的用户尽快开发和利用新特性。与传统的本地软件部署,它可以需要几个月,甚至几年,从供应商收到软件更新。数据原创 2015-08-25 14:00:41 · 25850 阅读 · 2 评论 -
com.esotericsoftware.kryo.kryoexception java.util.ConcurentModificationException
最近 有网友看我的“整合Kafka到Spark Streaming——代码示例和挑战”文章, 讲 kafka对象 放到 pool 并通过broadcast广播出去: 然后 在开发测试阶段 报错如下: 然后就找我,说“代码都跟你的差不多呀,为什么就报这个错呢?” 其实 对于广播操作,spark 肯定要序列号的,还有尽量不要把大对象广播出去, 后来 把代码要过来看了下,发现 creat原创 2015-08-11 15:15:44 · 59285 阅读 · 4 评论 -
spark on yarn
说明这篇文章记录下 spark提交左右在yarn上运行hadoop配置主要配置yarn-site.xml文件,我们目前使用mapreduce_shuffle,而有些公司也增加了spark_shuffle只使用mapreduce_shuffle<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuf原创 2015-09-22 20:55:19 · 26992 阅读 · 0 评论 -
spark-sql与elasticsearch整合&测试
1. 前置条件spark是1.4.1版本 elasticsearch是1.7版本 java是1.7版本2. 依赖jar包需要使用elasticsearch-hadoop 下载地址:http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch-hadoop/2.2.0-m13. 配置将下载的elasticsearch-hado原创 2015-11-09 19:49:04 · 31912 阅读 · 7 评论 -
既然有了elasticsearch为什么还要用hadoop和spark呢?good question
最近更多的时间投入到工作,而其余时间在学习elasticsearch & 机器学习 看到这篇文章,感觉有收获~ https://www.quora.com/Why-do-people-use-Hadoop-or-Spark-when-there-is-ElasticSearch原创 2015-11-04 13:31:23 · 12663 阅读 · 3 评论 -
通过spark-redshift工具包读取redshift上的表
spark数据源API在spark1.2以后,开始提供插件诗的机制,并与各种结构化数据源整合。spark 用户可以读取各种各样数据源的数据,比如Hive表、JSON文件、列式的Parquet表、以及其他表。通过spark包可以获取第三方数据源。 而这篇文章主要讨论spark 新的数据源,通过spark-redshift包,去访问Amazon Redshift服务。 spark-redshift原创 2015-11-07 18:02:55 · 3673 阅读 · 0 评论 -
spark streaming updateStateByKey 用法
updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加 在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步: 1) 定义状态:可以是任意数据类型 2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。 对于有状态操作,要不断的把当前和历史的时间切片的RDD累原创 2015-08-14 19:12:58 · 48211 阅读 · 3 评论 -
Task not serializable:java.io.NotSerializableExceptionon
异常信息这里关于调用外部的closure时出现了一些错误,当函数是一个对象时一切正常,当函数是一个类时则出现如下报错:Task not serializable: java.io.NotSerializableException: testing下面是能正常工作的代码示例: object working extends App { val list = List(1,2,3) val原创 2015-10-21 15:12:50 · 19562 阅读 · 0 评论 -
spark streaming的NetworkWordCount实例理解
NetworkWordCount代码/** Licensed to the Apache Software Foundation (ASF) under one or more* contributor license agreements. See the NOTICE file distributed with* this work for additional information r原创 2015-10-19 16:30:39 · 16093 阅读 · 1 评论 -
tachyon与hdfs,以及spark整合
Tachyon 0.7.1伪分布式集群安装与测试:http://blog.csdn.net/stark_summer/article/details/48321605 从官方文档得知,Spark 1.4.x和Tachyon 0.6.4版本兼容,而最新版的Tachyon 0.7.1和Spark 1.5.x兼容,目前所用的Spark为1.4.1,tachyon为 0.7.1tachyon 与原创 2015-09-14 17:50:09 · 26963 阅读 · 0 评论 -
hive on spark 编译
前置条件说明Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。 从Hive 1.1版本开始,Hive on Spark已经成为Hive代码的一部分了,并且在spark分支上面,可以看这里https://github.com/apache/hive/tree/spark,并会定期的移到master分支上面去。原创 2015-09-15 14:02:42 · 33411 阅读 · 1 评论 -
sparksql与hive整合
hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value> <description>Thrift uri for the remote metastore. Used by metastore c原创 2015-09-14 18:33:25 · 39913 阅读 · 0 评论 -
9个大数据 pain-points
大数据痛点 No.1:通用GPU编程CPU仍然是比较昂贵的产品,至少相对GPU而言是这样的。如果能更好的理解GPU、为GPU开发的驱动不再那么晦涩难懂,整个市场将会被打开。现在的一个事实是:GPU消耗更小,这足以平衡对它编程很困难、甚至不使用特定的模型都无法编程的缺点。这是某种情况下,有人在辛苦地写一些看起来像ODBC或JDBC的东西,以使AMD或Nvidia觉得这个市场比独立图形显卡市场更大。假设原创 2015-10-02 09:43:45 · 13151 阅读 · 0 评论 -
Apache Spark 1.5发布,新特性一览
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Apache Spark社区刚刚发布了1.5版本,明略数据高级工程师梁堰波解析了该版本中的众多新特性,同时梁堰波也是QCon上海《基于大数据的机器学习技术》专题的讲师,他将分享《基于机器学习的银行卡消费数据预测与推荐》的原创 2015-09-29 18:08:15 · 11558 阅读 · 0 评论 -
spark取得lzo压缩文件报错 java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec
恩,这个问题,反正是我从来没有注意的问题,但今天还是写出来吧配置信息hadoop core-site.xml配置<property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCode原创 2015-09-11 17:59:53 · 45070 阅读 · 2 评论 -
Apache Spark 1.5.0正式发布
Spark 1.5.0是1.x线上的第6个发行版。这个版本共处理了来自230+contributors和80+机构的1400+个patches。Spark 1.5的许多改变都是围绕在提升Spark的性能、可用性以及操作稳定性。Spark 1.5.0焦点在Tungsten项目,它主要是通过对低层次的组建进行优化从而提升Spark的性能。Spark 1.5版本为Streaming增加了operation原创 2015-09-09 17:35:53 · 26192 阅读 · 0 评论 -
spark streaming原理
Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。本节描述了Spark Streaming作业的执行流程。图1 Spark Streaming作业的执行流程具体流程:客户端提交作业后启动Driver,Driver是park作业的Master原创 2015-08-03 10:25:47 · 16975 阅读 · 0 评论 -
spark RDD的原理
RDD详解RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。当然,RDD肯定不会这么简单,它的功能还包括容错、集合内的数据可以并行处理等。图1是RDD类的视图。 图1一个简单的例子下面是一个实用scal原创 2015-07-31 20:13:30 · 19303 阅读 · 0 评论 -
spark implementation hadoop setup,cleanup
def main(args: Array[String]) { val sc = new SparkContext("local", "xxx") val inputData = sc.textFile("hdfs://master:8020/data/spark/user-history-data") val lines = inputData.map(line => (l原创 2015-07-31 17:51:00 · 14644 阅读 · 0 评论 -
Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序
Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序原创 2015-01-23 16:27:40 · 15248 阅读 · 0 评论 -
Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-01
创建一个Scala IDEA工程:点击“Next”:点击“Finish”完成工程的创建:修改项目的属性:首先修改Modules选项:在src下创建两个文件夹,并把其属性改为source:再修改Libraries:因为要开发Spark程序,所以需要把Spark的开发需要的jar包导原创 2015-02-10 13:07:45 · 15501 阅读 · 0 评论 -
spark内核揭秘-13-Worker中Executor启动过程源码分析
spark内核揭秘-13-Worker中Executor启动过程源码分析 spark内核揭秘-13-Worker中Executor启动过程源码分析 spark内核揭秘-13-Worker中Executor启动过程源码分析 spark内核揭秘-13-Worker中Executor启动过程源码分析原创 2015-01-21 21:34:14 · 15244 阅读 · 0 评论 -
hadoop&spark mapreduce对比 & 框架设计和理解
hadoop&spark mapreduce对比 & 框架设计和理解hadoop&spark mapreduce对比 & 框架设计和理解hadoop&spark mapreduce对比 & 框架设计和理解hadoop&spark mapreduce对比 & 框架设计和理解原创 2015-01-16 15:15:16 · 17295 阅读 · 3 评论