![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
计算引擎
计算引擎
zdsg1024
成功的路上并不拥挤,因为坚持的人不多
展开
-
Spark落地到hive表时saveAsTable与insertInto的区别
SaveAsTable //Api的解释 Saves the content of the `DataFrame` as the specified table. * * In the case the table already exists, behavior of this function depends on the * save mode, specified by the `mod...原创 2019-11-28 14:35:09 · 4956 阅读 · 2 评论 -
Spark中DF落地到hive中进行动态分区以及小文件问题
五个注意点 hive的动态分区需要开启非严格模式 set hive.exec.dynamic.partition.mode=nonstrict insertInto方式不支持分区表数据导入 saveAsTable与insertInto的区别 指定的分区列必须为当前表中的某个列 比如一张主题表中想保留Long类型的ct字段,又想根据ct转化为String类型的bdp_day来进行分区, 就需要在当...原创 2019-11-28 16:47:05 · 1607 阅读 · 2 评论 -
spark任务在yarn中的资源分配
yarn中spark任务的资源分配 监控页面: master://8088 所占内存总大小: 参数如下图: 实际情况中,应用程序申请到的资源量一定大于所申请的资源量 例如:spark driver指定内存 2g,executor指定内存 2g*3 合计应该是8192M内存 但实际上分配的内存或许为 12288M 等,为何会出现这样的情况? 因为由JVM自身的开销,并且还涉及到一个名词——规整化因子 并且yarn的不同任务调度模式下的资源分配总理的计算方式是不同的 规整化因子关于内存的默认配置: ya原创 2020-11-02 14:36:09 · 988 阅读 · 0 评论 -
SparkStreaming之direct方式消费kafka数据偏移量相关问题
SparkStreaming之direct方式消费kafka数据偏移量相关问题 direct方式支持不支持自动维护偏移量-----------不支持 那么看看direct方式消费时怎么判断偏移量的?? stream = KafkaUtils.createDirectStream( jssc, ConsumerStrategies.Subscribe(原创 2020-09-18 18:11:32 · 351 阅读 · 0 评论 -
MapReduce小作业优化之Uber模式
1.什么是Uber模式 Uber模式是Hadoop2.0中实现的一种针对MR小作业的优化机制。即如果作业足够小,则所有task在一个jvm(mrappmaster)中完成要比为每个task启动一个container更划算。 在有些情况下,运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大,如果此时的任务分片很多,那么为每个map任务或者reduce任务频繁创建Conta...原创 2019-09-08 16:28:34 · 387 阅读 · 0 评论