自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 阿里云DataWorks使用总结2

手动刷新元数据报错:{“code”:600002,“requestId”:“8dca608f385fd1f086a5e71c37f813f2”,“path”:“/dma/searchRefresh”,“url”:“https://bff-cn-hangzhou.data.aliyun.com/dma/searchRefresh?这个报错是由于目前DW的离线任务不支持运行一次这种操作,所以就是那个接口不是调用历险任务的,只能通过补数据的方式。像那种手动触发的在里面是看不到的,但是可以到控制台也的哪里看。

2024-05-13 16:12:07 396

原创 阿里云DataWorks使用总结1

根据DW页面打印的详细日志可以看到6:07 master 启动,是Master启动后,worker并没有启动,因为是分布式,所以会先启动一部分,一直到06:58Master才打印速率,但实际根据后台监控看06:39:05 数据已经开始写入了。然后联系数据库同学排查,可以发现数据库的 IOPS被打满,然后确实是那条SQL执行时间过慢,建议是排查关键字段是否有索引,有索引的情况下,语句是否会走索引。离线就是正常选择表,如果字段不一致,选择要同步的字段就可以了,需要注意的是有一个数据源是不支持同时选择多张表的。

2024-05-13 15:28:50 1052 1

原创 阿里云MaxCompute使用总结2

个人使用过程中的记录

2024-05-13 09:57:31 482

原创 阿里云MaxCompute使用总结1

阿里云MaxCompute使用过程中的部分经验总结

2024-05-13 09:42:43 365

原创 阿里云Flink链接阿里云Kafka的三种方式

1、实时写入Kafka可以参考阿里云官网链接,本次是记录解决使用Kafka另外两类接入点,默认为网络VPC。如果是使用了Flink提供的JKS,默认没有密码。5)在代码中引入依赖,不然依然会报错找不到jks。3、SASL_PLAINTEXT 配置记录。由于Flink默认没有提供公网访问的能力。1)想要打通首先需要通过这个方式打通网络。看完官网文档会发现,我写的配置会少几行。2、SASL_SSL 配置记录。2)在Kafka中新增用户。1)去Kafka中新增用户。3)with中的配置。2) 代码中增加配置。

2024-03-21 15:13:25 686 1

原创 阿里云DataWorks问题记录1

当前DW的数据开发支持MaxCompute、E-MapReduce、Hologres、AnalyticDB for MySQL、ClickHouse、CDH、AnalyticDB for PostgreSQL数据的在线开发,您可以将上述数据源与数据开发绑定,绑定成为数据开发数据源后,即可用于数据建模、数据开发、任务调度等场景。1、目前MC和DataWorks之前的项目空间对应关系为1对12、ADB目前为一个实例可以绑定一个项目空间引擎,如图1。

2024-03-18 18:25:05 516 1

原创 Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

前情提要:当前Spark 版本为2.4.5写数据到阿里云OSS1、编写Spark 代码 - 写OSSpublic class SparkODPS2OSS4 { public static void main(String[] args) { SparkSession spark = SparkSession .builder() .appName("ODPS2OSS") // 可访问O

2024-03-15 15:54:46 1940 5

原创 Spark Action 算子

1、reduce(func)作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。2、collect()作用:在驱动程序中,以数组的形式返回数据集的所有元素。3、count()作用:返回RDD中元素的个数4、first()作用:返回RDD中的第一个元素5、take(n)作用:返回一个由RDD的前n个元素组成的数组6、takeOrdered(n)作用...

2020-04-26 12:03:54 252 1

原创 Spark Transformation 算子

1、map(func)作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成2、mapPartitions(func)作用:类似于map,单独立在RDD的每一个分片上运行,因此在类型为T的RDD上云心时,func的函数类型必须是Iterator[T] => Iterator[U]假设有N个元素,有M个分区,那么map的函数将被调用N次,而mapPartition...

2020-04-24 08:35:17 221

原创 Spark概述

1、什么是SparkSpark 是一种基于内存的快速,通用,可扩展的大数据分析引擎2、Spark内置模块1、SparkCore:最根本的底层抽象Spark Core实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义2、Sp...

2020-04-18 11:31:06 299

Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

2024-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除