spark
文章平均质量分 77
欲乘风,潇潇雨
what can i say, just do it.
展开
-
Sparkthrift Server 启动命令调优及问题报错解决
文章目录1、sparkthrift Server 启动命令2、实际生产过程中的报错解决2.1、Kryo serialization failed: Buffer overflow. Available: 0, required: 2428400. To avoid this, increase spark.kryoserializer.buffer.max value2.2、java.lang.OutOfMemoryError: GC overhead limit exceeded2.3、Job abort原创 2023-03-15 16:27:00 · 2310 阅读 · 1 评论 -
Sparkthrift-sql执行报错-File does not exist: hdfs://xxx/t_bd_materialgroup/xxx.parquet
spark原创 2022-11-26 14:55:38 · 1860 阅读 · 0 评论 -
【持续更新】Spark Submit命令 配置参数详解
spark submit 参数原创 2022-11-10 12:30:20 · 6254 阅读 · 0 评论 -
Spark 连接 Mongodb 批量读取数据
spark 读取 mongodb 数据原创 2022-10-29 16:13:47 · 2760 阅读 · 1 评论 -
java-scala异常分类:
java异常分类:主类:Throwable子类:error(内部错误/资源耗尽,基本不能处理)子类:Execption(运行时异常、检查异常)运行异常:RuntimeException1.空指针 NullPointerException2.参数不匹配 ClassCastException3.数组越界 …检查异常:CheckedException1.IO读文件异常 IOException2.SQLException …如何处理:throw(方法内)/throws(方法名后) 不处理,原创 2020-08-03 20:07:42 · 496 阅读 · 0 评论 -
Spark 链接 Mongodb 报错:java.lang.NoSuchFieldError: UNSPECIFIED
spark connect mongodb原创 2022-08-31 10:06:01 · 1208 阅读 · 2 评论 -
Saprk-简介+概念理解+架构+启动程序+弹性分布式数据集
Why Saprk?MapReduce编程模型的局限性1.繁杂 仅仅map和reduce两个操作,复杂的逻辑需要大量的样板代码(太多重复性代码),开发比较复杂2.处理效率低 map结果落盘,reduce写HDFS,多个map通过HDFS交互数据 不合适迭代处理,交互式处理和流式处理Spark相比之下的优势 1.jobj中间的输出结果可以保存在内存中,无需读写HDFS(基于内存处理) 2.处理速度比mapreduce快乐近10倍(实际差距)Spark的优势 1.速度快(内存处原创 2020-08-05 12:04:18 · 330 阅读 · 0 评论 -
RDD、Dataset、DataFrame-对比分析+相互转化
RDD、Dataset、DataFrame 相互转换1.三者之间好既有区别,也有联系优点缺点RDD(关注数据本身)1.内置很多函数操作,group,map,filter 等,方便处理结构化或非结构化数据2.面向对象编程,直接存储的 java 对象,类型转化也安全1.由于它基本和 hadoop 一样万能的,因此没有针对特殊场景的优化,比如对于结构化数据处理相对于 sql 来比非常麻烦2.默认采用的是 java 序列号方式,序列化结果比较大,而且数据存储在 java 堆内存中,导致原创 2020-08-17 20:20:30 · 303 阅读 · 0 评论