Review(12)

1 数据倾斜 

       Shuffle

   MR:reduce

   Spark:task 

           100task  1-2task  ===>执行时间拉长

                           能跑完

                          跑不出来==》重跑

          打散 random

           Sql.ApI (最常用的方式:Udf函数)

            1)+随机数

            2)-随机数

        Spark UI

       Job/Stage/task 数据量 排序===》task处理的数据量是多少

 

大表和小表

    mapjoin

两个非常大的表 如何快速的join

2 Data Source API 

    数据:多种不同的格式的数据  存储在  不同的文件系统之中

             json/text/parquet                         hdfs/s3/...

  Hadoop:InputFormat  /OutputFormat

  Hive :Serde

  Presto:  Connector

  ......

read/write      from/to

初始状态 RDD

HadoopRDD

HbaseRDD

CassandraRDD

========>

 Spark RDD 

  Spark Sql  

 DataSource Api +DataFrame/DataSet 

1) concurrent 支持高并发 

2)distributed 分布式

3) filter  过滤掉不需要数据

4) data type能不能很好转换

5)clean up  if write failed (atomic)

 

V1版本

     RelationProvider  创建一个BaseRelation   参数(sqlContext)

   abstract BaseRelation包含两个

           sqlContext

           scheme

  Trait 

    Read

    TableScan   ====>select * from

   PrunedScan =====>select a,b,c from 

   PrunedFilterScan===>select a,b,c from table where

    val df =spark.read.format(“orc”).load(path)

 Write 

     df.write.format("orc").save(path)

   Trait InsertableRelation

 

V1 版本的特点:

    优点: 简单

    缺点:混杂RDD Row sqlContext DataFrame

                写的方式挺难  重跑

RDD==>DataFrame/Dataset

V1 版本举例

  

 

 

 

V2 版本

  spark-sql 

  (java)

  interface DataSourceV2

  ReadSupport Extends DataSourceV2   读取能力

   

 DataSourceReader  

     readSchema

     InputPartition<InnerRow>===>对应 Input split(mapreduce)

         InputPartitionReader

              next()

              get()

              

实现类

    SupportsPushDownFilters  减少读取数据的数据量

    SupportsPushDownRequiredFilters 

    SupportsScanColumn

 

图形举例

    

写流程

 

3 JVM

     User user = new User();

      等号左边的user叫引用===》存在栈里面

     等号右边的叫对象====》对象存在堆里面

       强引用

       软引用

       弱引用

       虚引用

强引用什么时候都不回收

软引用  内存够保留 内存不够删除

调整jvm 参数

 

常见的异常

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Under review是指论文正在被审稿人进行评审的状态。在这个阶段,审稿人会对论文进行详细的评估,包括对论文的质量、方法、结果和结论的评价。审稿人可能会提出修改意见或建议,以帮助作者进一步完善论文。\[1\]在某些期刊中,审稿过程可能会经历多次review,这可能是因为审稿人的个人因素或其他原因导致论文需要经过多轮评审。\[2\]每次审稿人接受审稿,论文的状态就会发生变化,因此under review的时间也会相应地变化。\[3\]这个过程可能需要一段时间,因为审稿人需要充分评估论文的质量和准确性,以确保论文的可靠性和学术价值。 #### 引用[.reference_title] - *1* *2* [一文解惑,对于SCI论文投稿Under Review状态的一万种解读](https://blog.csdn.net/RTIACA/article/details/127302797)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [关于SCI投稿时under review 时间多次变化最可能的解释](https://blog.csdn.net/qq_37203079/article/details/115520271)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值