自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

没有合适的昵称

求知若饥,虚心若愚

  • 博客(8)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 java.io.IOException: org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in bloc

java.io.IOException: org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file hdfs://test:9999/user…000.snappy.parquet由于 Hive 和 SparkSQL 在 Decimal 类型上使用了不同的转换方式写入 Parquet,导致 Hive 无法正确读取 SparkSQL 所导入的数据。对于已有的使用 SparkSQL 导

2020-07-17 18:18:54 2283

原创 Attribute(s) with the same name appear in the operation: 字段... Please check if the right attribute(s

参考:https://blog.csdn.net/x950913/article/details/106810376/

2020-07-17 18:18:37 2764

原创 自定义函数UDF1之坑

public class SumStringUdf implements UDF1<String, Double> {@Overridepublic Double call(String sumStr) throws Exception {// 处理规则}}写法上不会报错,但是一旦执行,就会报错: of the type (java.lang.Double) cannot be converted to the string type 不管是...

2020-07-17 18:17:57 368

原创 impala indexoutofboundsexception Error loading columns.

原因:impala不支持orc文件格式,同步元数据过去的时候,就会报这个错误解决:将orc表的元数据信息删除即可,或者将表的数据格式改一下,再同步即可

2020-07-10 19:10:30 409

原创 spark shuffle解析

ShuffleMapStage与ResultStage在划分stage时,最后一个stage称为finalStage,它本质上是一个ResultStage对象,前面的所有stage被称为ShuffleMapStage。ShuffleMapStage的结束伴随着shuffle文件的写磁盘。ResultStage基本上对应代码中的action算子,即将一个函数应用在RDD的各个partitio...

2020-07-02 22:04:23 1239

原创 Spark 内存管理

在执行Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给 Driver,同时为需要持久化的 RDD 提供存储功能。由于 Dri...

2020-07-02 22:03:53 1358

原创 Spark 核心组件解析

BlockManager数据存储与管理机制BlockManager是整个Spark底层负责数据存储与管理的一个组件,Driver和Executor的所有数据都由对应的BlockManager进行管理。Driver上有BlockManagerMaster,负责对各个节点上的BlockManager内部管理的数据的元数据进行维护,比如block的增删改等操作,都会在这里维护好元数据的变更。每个节...

2020-07-02 22:03:11 1269

原创 hive往指定位置添加字段

1

2020-07-02 22:00:06 2945

CDH5.14安装文档(包含spark2和kafka的安装)

CDH5.14安装文档(包含spark2和kafka的安装)

2021-03-30

CDH6.2安装文档.doc

CDH6.2.0安装详细文档,博主一步步实验过的,不足之处还望各位前辈同行指正,谢谢

2019-10-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除