![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
a姜哲雨
小贾历练日志
展开
-
关于spark-submit提交参数说明及示例
关于spark-submit提交参数说明及示例参数说明示例单机测试环境yarn-clientyarn-cluster参数说明参数名参数说明--packages包含在driver 和executor 的 classpath 中的 jar 的 maven 坐标--exclude-packages为了避免冲突 而指定不包含的 package--repositories远程 repository--conf PROP=VALUE指定 spark 配置属性的值, 例如原创 2020-12-22 09:37:54 · 561 阅读 · 0 评论 -
spark读文件生成df元素长度超过22不想创建schema偷懒方法 可真够懒得 哎φ(* ̄0 ̄)
问题描述:当我们使用spark读取文件时用如下方式可以简便读取并快速形成df进行相关操作当读取其他类文本时如textFile通常想到sc.textFile("")使用map进行分割,创建schema表结构;偷懒时一般会将列元素放到元组当中如下: val dnbgx_df = sc.textFile("hdfs://jzy1:9000/workdata/clean/jlddnbgx_25").map(x=>{ val all = x.split("\t") (all原创 2020-11-22 20:15:58 · 528 阅读 · 0 评论 -
spark提交maven程序报错Exception in thread “main“ java.lang.StackOverflowError
报错Exception in thread “main” java.lang.StackOverflowError如下:原因:栈内存溢出解决方案:修改spark相关配置:进入spark conf目录[root@jzy1 opt]# cd /opt/soft/spark234/conf/拷贝配置文件spark-defaults.conf.template并添加配置:[root@jzy1 conf]# cp spark-defaults.conf.template spark-def原创 2020-09-11 12:23:55 · 630 阅读 · 0 评论 -
spark写数据到mysql简便方法
首先需要准备导入mysql的df, val res = userAction.join(buygoods,Seq("cust_id","good_id"),"left").join(users,Seq("cust_id")) .join(goods,Seq("good_id")) .na.fill(Map("buy_time"->"190001","buynum"->"0","count_price"->"0"))执行以下指令,overwirte全量,.原创 2020-09-09 16:20:04 · 500 阅读 · 0 评论 -
spark项目实战——Flume->Kafka->SparkStreaming->Kafka
项目基本需求:利用Flume监控文件,将文件读取到Kafka中,再从Kafka中读入到SparkStreaming,在SparkStreaming中经过简单的处理后再写入到Kafka中。文件格式csv文件格式如下,user的朋友关系一对多,将朋友关系展开实现一对一的表格Flume监控文件读入到Kafka中a6.sources=s6a6.channels=c6a6.sinks=k6a6.sources.s6.type=spooldira6.sources.s6.spoolDir=/opt原创 2020-08-17 09:55:22 · 407 阅读 · 1 评论 -
Spark Streaming的流数据处理和分析 Spark读写Kafka
Spark Streaming的流数据处理和分析 Spark读写Kafka一、流是什么二、Spark Streaming1、简介2、流数据处理框架3、内部工作流程三、StreamingContext Spark Streaming读kafa数据1、创建2、入门 Spark Streaming读kafa数据示例无状态流处理有状态流处理四、Spark Streaming 写数据到kafka对KafkaProducer包装,再广播到每个Executor中,避免产生大量对象一、流是什么数据流数据的流入原创 2020-08-17 09:42:44 · 491 阅读 · 0 评论 -
Spark GraphX 图形数据分析(API PageRank Pregel)
Spark GraphX 图形数据分析GraphX API图的构建与图信息的查看图的算子pageRank应用pregel应用求最短距离GraphX API图的基本概念和术语这里介绍,这里以示例来做基本演示与理解外部依赖除了基本的spark依赖之外,还需导入spark-GraphX构建如下关系图,圈内数字分别表示各个点的id,以(name,job)作为各点的属性,各点之间形成关系图,边的权重表示为点与点之间的联系图的构建与图信息的查看创建图操作(以下为操作步骤,代码在main方法中执行)原创 2020-08-04 22:39:52 · 320 阅读 · 2 评论 -
Spark SQL 操作外部数据源-Hive 的两种方法
Spark SQL 操作外部数据源-Hive依赖resources操作代码依赖spark-corespark-sqlmysql-connectorspark-hive <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> &l原创 2020-08-01 23:25:21 · 323 阅读 · 0 评论 -
使用idea打包scala程序,并在spark中提交运行
一、pom文件中build修改 <build> <plugins> <plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</artifactId> <version>2.15.2</version> <execut原创 2020-07-29 23:02:27 · 999 阅读 · 2 评论 -
spark如何读取包含json格式+普通文本格式的文本并转换成DataFrame
我们知道spark读取文件并转换成DataFrame可以通过sparkSession.read.format直接读取,但是当我们读取的是普通文本,并且内容包含普通文本及json格式的文档,如下图abc.log文档,如何读取并转换?12334 hehehe {"name":"zhangsan","age":"32"} 1995-6-7123423 xixi {"name":"lisi","age":"32"} 2000-9-8234435 cici {"name":"wangwu","age":"3原创 2020-07-29 22:45:29 · 730 阅读 · 0 评论 -
Spark 创建DataFrame的常用方法及使用 表不还是随便用用么φ(* ̄0 ̄)
Spark 创建DataFrame的常用方法及使用一、通过读取文件创建二、通过seq生成三、动态创建schema四、通过读取数据库一、通过读取文件创建 def main(args: Array[String]): Unit = { val spark = SparkSession.builder().master("local[1]").appName("mytest").getOrCreate()原创 2020-07-28 22:54:44 · 233 阅读 · 0 评论 -
Spark【一】简介及完全分布式安装
Spark简介及完全分布式安装初识Spark为什么使用SparkSpark优势完全分布式安装及启动启动命令初识Spark为什么使用SparkMapReduce编程模型的局限性繁杂只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码处理效率低Map中间结果写磁盘,Reduce写HDFS,多个Map通过HDFS交换数据任务调度与启动开销大不适合迭代处理、交互式处理和流式处理Spark是类Hadoop MapReduce的通用并行框架Job中间输出结果可原创 2020-07-26 22:40:18 · 442 阅读 · 0 评论