AWS Glue批量同步OpenSearch数据入Redshift 1. 目标使用Glue同步AWS OpenSearch数据到Redshift。2. 加载测试数据AOS创建索引并写入:curl -X POST -u 'xx:xxx' 'https://vpc-knn-4r272pshdggabtlhihabz7clba.ap-northeast-1.es.amazonaws.com/dot_common/_doc' \ -H 'Content-T...
Flink-读Kafka写Hive表 1. 目标使用Flink读取Kafka数据并实时写入Hive表。2. 环境配置EMR环境:Hadoop 3.3.3, Hive 3.1.3, Flink 1.16.0根据官网描述:https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/connectors/table/hive/overview/当前Flink ...
Stable Diffusion(二)WebUI使用指南 1. 前言基于https://stable-diffusion-art.com/内的教程进行翻译与整理,帮助快速上手 stable-diffusion 的使用。2. 环境AWS DeepLearning AMI3. 部署Stable Diffusion web UIWeb UI github:https://github.com/AUTOMATIC1111/stable-diff...
Stable Diffusion(三)Dreambooth finetune模型 1. DreamboothDreambooth可以把你任何喜欢的东西放入Stable Diffusion模型。1.1. 什么是Dreambooth最初由谷歌在2022年发布,是对SD模型的fine-tune技术。可以把自己喜欢的东西注入到SD模型中。为什么称为Dreambooth?根据谷歌团队的解释:它就像一个照相馆,在对这个东西拍照后,就可以合成到你梦想中的任何地方。下面是论文中给的...
Stable Diffusion(一)Stable Diffusion 原理 Stable Diffusion原理此文为译文,原文见:https://stable-diffusion-art.com/how-stable-diffusion-work/Stable Diffusion是一个深度学习模型,我们会深入解析SD的工作原理。1. Stable Diffusion能做什么直白地说,SD是一个text-to-image模型,通过给定text prompt(文...
在 AWS 平台搭建 DolphinScheduler AWS平台搭建 DolphinSchedulerDolphinScheduler 是当前热门的调度器,提供了完善的可视化、拖拉拽式的调度。在 AWS 平台上提供了 airflow 与 step function 这两种调度工具,但两者在可视化操作上的支持较为有限,无法满足所有AWS用户场景。有部分用户、场景对 DolphinSchduler 有需求,所以本文提供了详细的在 AWS 上搭建 Do...
NLP与深度学习(六)BERT模型的使用 从头开始训练一个BERT模型是一个成本非常高的工作,所以现在一般是直接去下载已经预训练好的BERT模型。结合迁移学习,实现所要完成的NLP任务。谷歌在github上已经开放了预训练好的不同大小的BERT模型,可以在谷歌官方的github repo中下载[1]。以下是官方提供的可下载版本:其中L表示的是encoder的层数,H表示的是隐藏层的大小(也就是最后的前馈网络中的神经元个数,等同于...
NLP与深度学习(五)BERT预训练模型 1. BERT简介Transformer架构的出现,是NLP界的一个重要的里程碑。它激发了很多基于此架构的模型,其中一个非常重要的模型就是BERT。BERT的全称是Bidirectional Encoder Representation from Transformer,如名称所示,BERT仅使用了Transformer架构的Encoder部分。BERT自2018年由谷歌发布后,在多种NLP...
Prometheus监控系统(三)Prometheus与Grafana集成 1. Prometheus和Grafana集成Grafana是一款采用Go语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具。目前已支持绝大部分常用的时序数据库。下载地址为:https://grafana.com/grafana/download安装Grafana:wget https://dl.grafana.com/enterpr...
Prometheus监控系统(二)Prometheus部署与使用 1. Prometheus安装官网:https://prometheus.io/下载地址:https://prometheus.io/download/Prometheus基于Golang编写,编译后的软件包不依赖于任何第三方依赖。只需要下载对应平台的二进制包,解压并添加基本的配置即可正常启动Prometheus Server。1.1. 安装Prometheus Server下载安装包...
Prometheus监控系统(一)Prometheus介绍 1. Prometheus简介Prometheus受启发于Google的Brogmon监控系统(类似kubernetes是从Google的Brog系统演变而来)。于2012年以开源形式发布,在2015年对外发布早期版本。2016年发布1.0版本,2017年发布基于全新存储层的2.0版本,能更好地与容器平台、云平台配合。当前Prometheus已经称为新一代的云原生监控系统。2. Prome...
NLP与深度学习(四)Transformer模型 1. Transformer模型在Attention机制被提出后的第3年,2017年又有一篇影响力巨大的论文由Google提出,它就是著名的Attention Is All You Need[1]。这篇论文中提出的Transformer模型,对自然语言处理领域带来了巨大的影响,使得NLP任务的性能再次提升一个台阶。Transformer是一个Seq2Seq架构的模型,所以它也由Encoder...
NLP与深度学习(三)Seq2Seq模型与Attention机制 1. Attention与Transformer模型Attention机制与Transformer模型,以及基于Transformer模型的预训练模型BERT的出现,对NLP领域产生了变革性提升。现在在大型NLP任务、比赛中,基本很少能见到RNN的影子了。大部分是BERT(或是其各种变体,或者还加上TextCNN)做特征提取(feature extraction)或是微调(fine-tun...
NLP与深度学习(二)循环神经网络 1. 循环神经网络在介绍循环神经网络之前,我们先考虑一个大家阅读文章的场景。一般在阅读一个句子时,我们是一个字或是一个词的阅读,而在阅读的同时,我们能够记住前几个词或是前几句的内容。这样我们便能理解整个句子或是段落所表达的内容。循环神经网络便是采用的与此同样的原理。循环神经网络(RNN,Recurrent Neural Network)与其他如全连接神经网络、卷积神经网络相比,最大的特点在于...
Debezium-Flink-Hudi:实时流式CDC 目录1. 什么是Debezium2. Debezium常规使用架构3. 部署Debezium3.1. AWS EKS部署Kafka Connector4. Flink 消费Debezium 类型消息5. 写入Hudi表5.1. 依赖包问题5.2. Flink 版本问题6. Flink消费Debezium与写入Hudi测试7. 验证hudi表8. 总结References1. 什么是DebeziumDebezium是一个开源的分布式平台,用于捕捉变化数据
ClickHouse介绍(四)ClickHouse使用操作 ClickHouse使用操作这章主要介绍在ClickHouse使用的各个操作的注意点。常规的统一语法不做详细介绍。1. Join操作在ClickHouse中,对连接操作定义了不同的精度,包含ALL、ANY和ASOF三种类型,默认为ALL。可以通过join_default_strictness配置修改默认精度(位于system.setting表中)。下面分别说明这3种精度。首先建表并插入测...
ClickHouse介绍(三)MergeTree系列表引擎 MergeTree系列表引擎ClickHouse中最核心的引擎当属MergeTree系列引擎,其中基础表引擎为MergeTree,常用的表引擎还有ReplacingMergeTree、SummingMergeTree、AggregatingMergeTree、CollapsingMergeTree和VersionedCollapsingMergeTree。每一种MergeTree的变种,在继承...
ClickHouse介绍(二)MergeTree引擎 MergeTree引擎ClickHouse中有多种表引擎,包括MergeTree、外部存储、内存、文件、接口等,6大类,20多种表引擎。其中最强大的当属MergeTree(及其同一家族中)引擎。我们在前面的建表例子中也使用了MergeTree引擎。MergeTree系列引擎,在写入一批数据时,数据是以数据片段(官网称为part)的形式一个接一个地快速写入,且此数据片段无法修改。这些数据片段会...
ClickHouse介绍(一)初次使用 ClickHouse使用ClickHouse是一个面向列存储的OLAP分析数据库,以其强大的分析速度而闻名。有关ClickHouse的介绍可以参考其官网说明[1]。本文主要介绍它的基本使用。1. 安装使用的环境为2台 AWS EC2,操作系统为Amazon Linux2。使用的ClickHouse为最新的stable版本v21.2.5.5-stable [2]。export LATES...
使用AWS SageMaker进行机器学习项目 使用AWS SageMaker进行机器学习项目本文主要介绍如何使用AWS SageMaker进行机器学习项目。1. 题目使用的题目为阿里天池的“工业蒸汽量预测“,题目地址为:https://tianchi.aliyun.com/competition/entrance/231693/introduction给定的数据: 脱敏后的锅炉传感器采集的数据(采集频率为分钟级)预测目标: 根据...