Spark 零碎知识点
Spark学习过程中遇到的零碎知识点
throws-Exception
这个作者很懒,什么都没留下…
展开
-
Spark——map和mapPartitions的区别
张三李四张三丰李世民张三对名字做wordcount val spark: SparkSession = SparkSession.builder().master("local[2]").appName("mappartition").getOrCreate() val sc: SparkContext = spark.sparkContext import spark.implicits._ val rdd: RDD[String] = sc.textFile("sr原创 2020-09-23 15:11:05 · 114 阅读 · 0 评论 -
spark项目打包build—— scala项目打包
<build> <sourceDirectory>src/main/scala</sourceDirectory> <plugins> <plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</artifactId> <vers原创 2020-09-11 12:12:47 · 706 阅读 · 0 评论 -
Exception in thread “main“ java.lang.StackOverflowError ——Spark栈溢出解决方案
这是spark栈溢出问题 解决方案:进入spark的conf目录:cd /opt/soft/spark234/conf/添加如下配置:spark.driver.extraJavaOptions="-Xss30M"重启spark 再次运行即可。原创 2020-09-11 12:11:05 · 1483 阅读 · 0 评论 -
Spark运行日志去除——log4j.properties
log4j.rootLogger=ERROR,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d %p [%-20c] - %m%nlog4j.appender.logfile=org.apache.log4j.Fil原创 2020-08-17 09:22:33 · 1210 阅读 · 0 评论 -
Spark学习——装载数据源
Spark装载CSV数据源文件预览使用SparkContextval lines = sc.textFile("file:///home/kgc/data/users.csv")val fields = lines.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(l => l.split(","))val fields = lines.filter(l=>l.原创 2020-08-17 08:44:34 · 137 阅读 · 0 评论 -
Spark装载数据源
Spark装载CSV数据源文件预览使用SparkContextval lines = sc.textFile("file:///home/kgc/data/users.csv")val fields = lines.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter.drop(1) else iter).map(l => l.split(","))val fields = lines.filter(l=>l.原创 2020-07-29 16:59:17 · 110 阅读 · 0 评论 -
spark在linux下运行jar包
在linux上运行jar包pom文件:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/x原创 2020-07-29 16:53:28 · 1618 阅读 · 0 评论