spark学习日记

最新推荐文章于 2022-12-30 10:22:38 发布

纵配天

最新推荐文章于 2022-12-30 10:22:38 发布

阅读量113

点赞数

本文链接：https://blog.csdn.net/Tyrant_em/article/details/117671933

版权

6.7尝试了使用学校里Python读取数据库，读取一条数据耗时八分钟。返回多条数据程序卡死。使用了vscode，pycharm专业版和anaconda。pycharm专业版由于公司内网设置无法运行。

开始spark的学习。

选择尚硅谷视频教程学习并入上手wordcount小例子

建立spark框架链接需要加入依赖。在pom.xml中添加

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.0.0</version>
    </dependency>
</dependencies>

出现内存不足的错误，经过检索后在设置SparkConf后加入指定分配给spark的内存。

.set("spark.testing.memory","2147480000")

scala表达式后续需要补充学习。如果是用java也看看怎么进行转换。

从师父给的代码来看，以后在集群运行不需加入此条。

将运行日志省略只留下error信息

Set everything to be logged to the console
log4j.rootCategory=ERROR, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
# Settings to quiet third party logs that are too verbose
log4j.logger.org.eclipse.jetty=WARN
log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=WARN
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=WARN

Yarn模式在集群运行

home/spark-2.3.0-bin-hadoop2.7/bin/spark-submit --class test.SparksqlTest --master spark://(host地址):7077 --num-executors 3 --executor-memory 8G --driver-memory 2g --conf spark.driver.maxResultSize=2g

--num-executors 配置Executor数量

--executor-memory配置每个Executor内存大小

并行度（可以修改，同时执行）

资源申请，计算准备

数据结构：RDD、累加器、广播变量

（socket通信先不看，视频看看，因为好像实际用不到mark一下，为了引入RDD。）

RDD将task进行拆分分给executor。RDD为最小计算单元。多个RDD关联完成需求。(装饰者设计模式：核心不变，进行扩展例如java的io操作)

IO的字节流&字符流可以帮助理解RDD

file---------ShuffledRDD-reducebykey{------------colllect------console

MapPartitionsRDD-map{

MapPartitionsRDD-flatmap{

HadoopRDD-textFile