spark
文章平均质量分 80
midNightParis
这个作者很懒,什么都没留下…
展开
-
Spark:一个高效的分布式计算系统
概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习转载 2014-09-17 15:36:02 · 448 阅读 · 0 评论 -
Spark Streaming:大规模流式数据处理的新贵
转载地址:http://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如以下三个类型。转载 2014-10-15 11:38:54 · 501 阅读 · 0 评论 -
Spark On Yarn(HDFS HA)详细配置过程
转载自:http://database.51cto.com/art/201404/435630.htmSpark On Yarn(HDFS HA)详细配置过程2014-04-16 11:01 人生理想在于坚持不懈 51CTO博客 字号:T |T我们将要介绍Spark On Yarn详细配置过程,包括服务器分布以及Spark的部署全部过程。AD:WOT2015 互转载 2015-02-09 10:19:33 · 663 阅读 · 0 评论 -
IntelliJ IDEA 快捷键
代码提示KEYMAP->Mainmenu->Code->CompleteCode->Basic 设置快捷键ALT+Z原是ctrl+空格(SPACE) KEYMAP->Mainmenu->Code->Generate 设置快捷键ALT+Insert原是AlT+Shift+S Alt+回车 导入包, 自动修正 Ctrl+N查找类 Ctrl+Shift+N查找文转载 2015-02-10 14:18:45 · 331 阅读 · 0 评论 -
spark streaming updateStateByKey 用法
updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加 在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步: 1) 定义状态:可以是任意数据类型 2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。 对于有状态操作,要不断的把当前和历史的时间切转载 2015-09-28 16:50:53 · 544 阅读 · 0 评论 -
使用beeline/jdbc 连接hive,impala,sparksql
hive和sparksql的端口号都是10000,所以在连接时我们要区分连接的是sparksql还是hive。连接hive:beeline -u jdbc:hive2://cdh1:10000/default连接sparksql:在cdh2上启动spark thirft-server服务:/opt/cloudera/parcels/CDH/lib/spark/sbin/st原创 2015-10-12 11:52:24 · 2874 阅读 · 0 评论 -
spark操作hbase中的数据
首先,需要在spark中添加hbase的jar包,在{SPARK_HOME}/conf/spark-env.sh 中添加:export SPARK_CLASSPATH=/opt/cloudera/parcels/CDH/lib/hbase/lib/*环境配置为了避免版本不一致带来不必要的麻烦,API 和 HBase环境都是 1.0.0 版本。HBase 为原创 2015-10-13 15:58:42 · 3890 阅读 · 0 评论 -
Spark on Yarn遇到的几个问题
转载自:http://www.cnblogs.com/Scott007/p/3889959.html1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。 在部署和运行Spark Appl转载 2015-12-03 16:17:28 · 646 阅读 · 0 评论 -
Spark常见问题汇总
注意:如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面查看是否有错误情况了1、Operation category READ is not supported in state转载 2017-05-16 14:56:09 · 1103 阅读 · 0 评论