Spark
在路上_JD
数据开发工程师
展开
-
java.io.IOException - Cannot run program "git": java.io.IOException: error=2, No such file or direct
今天在spark下执行这个原创 2014-05-15 13:39:46 · 10732 阅读 · 0 评论 -
Spark join demo
package spark;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.Optional;import o...原创 2018-11-14 22:59:36 · 259 阅读 · 0 评论 -
com.mongodb.hadoop.splitter.SplitFailedException
使用 Spark 链接 MongoDB 数据库时报错:Exception in thread "main" java.io.IOException: com.mongodb.hadoop.splitter.SplitFailedException: Failed to aggregate sample documents. Note that this Splitter implementatio...原创 2018-03-27 13:02:38 · 796 阅读 · 0 评论 -
Spark详解
最近查了很多Spark相关的资料,把其中写的比较好的做了系统的整理,现在分享给大家!有不对或不完善的地方请大家指正批评!目录1、Spark的特点2、Spark基本概念2.1、Spark组件的概念3、Spark基本架构4、spark运行流程5、Spark核心功能6、Spark扩展功能7、RDD运行流程8、Spark模块设计9、Spark编程模型10、Spark计算模型11、Spark运行模式11.1...转载 2018-03-20 11:19:52 · 2467 阅读 · 0 评论 -
spark读取外部配置文件之--files
在运行spark程序的时,有时需要读取外部配置参数,比如mysql的host参数、端口号、es主机ip、es端口号等。通过外部文件配置参数也方便程序迁移。下面就来看看如何来实现。1、首先我们需要一个配置文件:property.ymles.nodes: 192.16.8.16es.port: 92002、上传配置文件到某个节点:3、然后需要在程序里加上如下代码:Properties props ...原创 2018-03-06 14:37:04 · 15958 阅读 · 4 评论 -
Invalid signature file digest for Manifest main attributes
Invalid signature file digest for Manifest main attributes--文件签名不合法在运行spark程序的时候报下面的异常:18/03/06 09:21:28 ERROR yarn.ApplicationMaster: Uncaught exception: java.lang.SecurityException: Invalid signatur...原创 2018-03-06 10:06:33 · 20811 阅读 · 0 评论 -
通过Spark程序读取CSV文件存储到ES
通过Spark程序读取CSV文件存储到ES0、准备工作:spark版本:1.6.0ES版本:5.5.2JDK版本:1.8测试数据:Book1.csvage,sex,no,address,phone,qq,birthday12,男,1,斯蒂芬斯蒂芬,122,444,2017-1-1213,男,2,斯蒂芬斯蒂芬,123,445,2017-1-1214,男,3,斯蒂芬斯蒂芬,124,446,201...原创 2018-03-01 10:29:10 · 1816 阅读 · 0 评论 -
Spark性能优化:数据倾斜调优
前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多...转载 2018-03-08 10:14:46 · 203 阅读 · 0 评论 -
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。...转载 2018-03-08 10:08:40 · 228 阅读 · 0 评论 -
Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业...转载 2018-03-08 10:03:43 · 194 阅读 · 0 评论 -
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...转载 2018-03-08 09:54:33 · 203 阅读 · 0 评论 -
Spark WordCount
spark wordcount原创 2017-03-07 17:54:34 · 398 阅读 · 0 评论 -
spark异常 Compression codec com.hadoop.compression.lzo.LzoCodec not found
Compression codec com.hadoop.compression.lzo.LzoCodec not found原创 2017-03-06 17:51:36 · 8509 阅读 · 0 评论 -
Spark介绍
Spark是一个通用的大规模数据快速处理引擎。Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learing、Graph Processing等模型统一到一个平台下,并将一致的API公开且提供相同的部署方案,使得Spark的工程应用领域变得更加广泛。转载 2017-03-02 22:28:10 · 343 阅读 · 0 评论 -
Spark中的交互式模式
Spark中的交互式模式原创 2017-03-03 17:13:26 · 1226 阅读 · 0 评论 -
Spark源码解析-spark-shell
spark源码之spark-shell 分析原创 2017-03-17 13:25:54 · 537 阅读 · 0 评论 -
SparkSQl通过JDBC读取外部数据源的数据
Spark版本:2.2.0通过JDBC配置可以读取 Mysql、Oracle、Gbase、Hive 等数据库的数据,JDBC 配置选项如下:配置名称 含义 url 要连接的JDBC URL。 dbtable 应该读取的JDBC表。请注意,FROM可以使用在SQL查询的子句中有效的任何内容。例如,您也可以在括号中使用子查询,而不是完整的表。 driver ...原创 2019-01-17 10:06:02 · 867 阅读 · 0 评论