烧酒与墨-CSDN博客

原创阿里云DataWorks使用总结2

手动刷新元数据报错：{“code”:600002,“requestId”:“8dca608f385fd1f086a5e71c37f813f2”,“path”:“/dma/searchRefresh”,“url”:“https://bff-cn-hangzhou.data.aliyun.com/dma/searchRefresh?这个报错是由于目前DW的离线任务不支持运行一次这种操作，所以就是那个接口不是调用历险任务的，只能通过补数据的方式。像那种手动触发的在里面是看不到的，但是可以到控制台也的哪里看。

2024-05-13 16:12:07 396

原创阿里云DataWorks使用总结1

根据DW页面打印的详细日志可以看到6:07 master 启动，是Master启动后，worker并没有启动，因为是分布式，所以会先启动一部分，一直到06:58Master才打印速率，但实际根据后台监控看06:39:05 数据已经开始写入了。然后联系数据库同学排查，可以发现数据库的 IOPS被打满，然后确实是那条SQL执行时间过慢，建议是排查关键字段是否有索引，有索引的情况下，语句是否会走索引。离线就是正常选择表，如果字段不一致，选择要同步的字段就可以了，需要注意的是有一个数据源是不支持同时选择多张表的。

2024-05-13 15:28:50 1052 1

原创阿里云MaxCompute使用总结2

个人使用过程中的记录

2024-05-13 09:57:31 482

原创阿里云MaxCompute使用总结1

阿里云MaxCompute使用过程中的部分经验总结

2024-05-13 09:42:43 365

原创阿里云Flink链接阿里云Kafka的三种方式

1、实时写入Kafka可以参考阿里云官网链接，本次是记录解决使用Kafka另外两类接入点，默认为网络VPC。如果是使用了Flink提供的JKS，默认没有密码。5）在代码中引入依赖，不然依然会报错找不到jks。3、SASL_PLAINTEXT 配置记录。由于Flink默认没有提供公网访问的能力。1）想要打通首先需要通过这个方式打通网络。看完官网文档会发现，我写的配置会少几行。2、SASL_SSL 配置记录。2）在Kafka中新增用户。1）去Kafka中新增用户。3）with中的配置。2) 代码中增加配置。

2024-03-21 15:13:25 686 1

原创阿里云DataWorks问题记录1

当前DW的数据开发支持MaxCompute、E-MapReduce、Hologres、AnalyticDB for MySQL、ClickHouse、CDH、AnalyticDB for PostgreSQL数据的在线开发，您可以将上述数据源与数据开发绑定，绑定成为数据开发数据源后，即可用于数据建模、数据开发、任务调度等场景。1、目前MC和DataWorks之前的项目空间对应关系为1对12、ADB目前为一个实例可以绑定一个项目空间引擎，如图1。

2024-03-18 18:25:05 516 1

原创 Spark 读取阿里云 MaxCompute数据源写阿里云OSS和华为云OBS

前情提要：当前Spark 版本为2.4.5写数据到阿里云OSS1、编写Spark 代码 - 写OSSpublic class SparkODPS2OSS4 { public static void main(String[] args) { SparkSession spark = SparkSession .builder() .appName("ODPS2OSS") // 可访问O

2024-03-15 15:54:46 1940 5

原创 Spark Action 算子

1、reduce(func)作用：通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据。2、collect()作用：在驱动程序中，以数组的形式返回数据集的所有元素。3、count()作用：返回RDD中元素的个数4、first()作用：返回RDD中的第一个元素5、take(n)作用：返回一个由RDD的前n个元素组成的数组6、takeOrdered(n)作用...

2020-04-26 12:03:54 252 1

原创 Spark Transformation 算子

1、map(func)作用：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成2、mapPartitions(func)作用：类似于map,单独立在RDD的每一个分片上运行，因此在类型为T的RDD上云心时，func的函数类型必须是Iterator[T] => Iterator[U]假设有N个元素，有M个分区，那么map的函数将被调用N次，而mapPartition...

2020-04-24 08:35:17 221

原创 Spark概述

1、什么是SparkSpark 是一种基于内存的快速，通用，可扩展的大数据分析引擎2、Spark内置模块1、SparkCore：最根本的底层抽象Spark Core实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义2、Sp...

2020-04-18 11:31:06 299

weixin_43078951的博客