ZackFairT-CSDN博客

原创 AWS Glue批量同步OpenSearch数据入Redshift

1. 目标使用Glue同步AWS OpenSearch数据到Redshift。2. 加载测试数据AOS创建索引并写入：curl -X POST -u 'xx:xxx' 'https://vpc-knn-4r272pshdggabtlhihabz7clba.ap-northeast-1.es.amazonaws.com/dot_common/_doc' \ -H 'Content-T...

2023-08-30 10:18:00 386

原创 Flink-读Kafka写Hive表

1. 目标使用Flink读取Kafka数据并实时写入Hive表。2. 环境配置EMR环境：Hadoop 3.3.3, Hive 3.1.3, Flink 1.16.0根据官网描述：https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/connectors/table/hive/overview/当前Flink ...

2023-08-29 21:03:00 1545

原创 Stable Diffusion（二）WebUI使用指南

1. 前言基于https://stable-diffusion-art.com/内的教程进行翻译与整理，帮助快速上手 stable-diffusion 的使用。2. 环境AWS DeepLearning AMI3. 部署Stable Diffusion web UIWeb UI github：https://github.com/AUTOMATIC1111/stable-diff...

2023-04-16 22:52:00 1403

原创 Stable Diffusion（三）Dreambooth finetune模型

1. DreamboothDreambooth可以把你任何喜欢的东西放入Stable Diffusion模型。1.1. 什么是Dreambooth最初由谷歌在2022年发布，是对SD模型的fine-tune技术。可以把自己喜欢的东西注入到SD模型中。为什么称为Dreambooth？根据谷歌团队的解释：它就像一个照相馆，在对这个东西拍照后，就可以合成到你梦想中的任何地方。下面是论文中给的...

2023-04-16 22:52:00 733

原创 Stable Diffusion（一）Stable Diffusion 原理

Stable Diffusion原理此文为译文，原文见：https://stable-diffusion-art.com/how-stable-diffusion-work/Stable Diffusion是一个深度学习模型，我们会深入解析SD的工作原理。1. Stable Diffusion能做什么直白地说，SD是一个text-to-image模型，通过给定text prompt(文...

2023-04-16 22:12:00 978

AWS平台搭建 DolphinSchedulerDolphinScheduler 是当前热门的调度器，提供了完善的可视化、拖拉拽式的调度。在 AWS 平台上提供了 airflow 与 step function 这两种调度工具，但两者在可视化操作上的支持较为有限，无法满足所有AWS用户场景。有部分用户、场景对 DolphinSchduler 有需求，所以本文提供了详细的在 AWS 上搭建 Do...

2022-06-15 23:29:00 139

原创 NLP与深度学习（六）BERT模型的使用

从头开始训练一个BERT模型是一个成本非常高的工作，所以现在一般是直接去下载已经预训练好的BERT模型。结合迁移学习，实现所要完成的NLP任务。谷歌在github上已经开放了预训练好的不同大小的BERT模型，可以在谷歌官方的github repo中下载[1]。以下是官方提供的可下载版本：其中L表示的是encoder的层数，H表示的是隐藏层的大小(也就是最后的前馈网络中的神经元个数，等同于...

2021-10-09 23:13:00 274

原创 NLP与深度学习（五）BERT预训练模型

1. BERT简介Transformer架构的出现，是NLP界的一个重要的里程碑。它激发了很多基于此架构的模型，其中一个非常重要的模型就是BERT。BERT的全称是Bidirectional Encoder Representation from Transformer，如名称所示，BERT仅使用了Transformer架构的Encoder部分。BERT自2018年由谷歌发布后，在多种NLP...

2021-09-30 20:35:00 98

原创 Prometheus监控系统（三）Prometheus与Grafana集成

1. Prometheus和Grafana集成Grafana是一款采用Go语言编写的开源应用，主要用于大规模指标数据的可视化展现，是网络架构和应用分析中最流行的时序数据展示工具。目前已支持绝大部分常用的时序数据库。下载地址为：https://grafana.com/grafana/download安装Grafana：wget https://dl.grafana.com/enterpr...

2021-09-24 22:45:00 78

原创 Prometheus监控系统（二）Prometheus部署与使用

1. Prometheus安装官网：https://prometheus.io/下载地址：https://prometheus.io/download/Prometheus基于Golang编写，编译后的软件包不依赖于任何第三方依赖。只需要下载对应平台的二进制包，解压并添加基本的配置即可正常启动Prometheus Server。1.1. 安装Prometheus Server下载安装包...

2021-09-24 22:42:00 117

原创 Prometheus监控系统（一）Prometheus介绍

1. Prometheus简介Prometheus受启发于Google的Brogmon监控系统(类似kubernetes是从Google的Brog系统演变而来)。于2012年以开源形式发布，在2015年对外发布早期版本。2016年发布1.0版本，2017年发布基于全新存储层的2.0版本，能更好地与容器平台、云平台配合。当前Prometheus已经称为新一代的云原生监控系统。2. Prome...

2021-09-24 18:54:00 64

原创 NLP与深度学习（四）Transformer模型

1. Transformer模型在Attention机制被提出后的第3年，2017年又有一篇影响力巨大的论文由Google提出，它就是著名的Attention Is All You Need[1]。这篇论文中提出的Transformer模型，对自然语言处理领域带来了巨大的影响，使得NLP任务的性能再次提升一个台阶。Transformer是一个Seq2Seq架构的模型，所以它也由Encoder...

2021-09-14 00:10:00 168

原创 NLP与深度学习（三）Seq2Seq模型与Attention机制

1. Attention与Transformer模型Attention机制与Transformer模型，以及基于Transformer模型的预训练模型BERT的出现，对NLP领域产生了变革性提升。现在在大型NLP任务、比赛中，基本很少能见到RNN的影子了。大部分是BERT(或是其各种变体，或者还加上TextCNN)做特征提取(feature extraction)或是微调(fine-tun...

2021-09-02 00:45:00 78

原创 NLP与深度学习（二）循环神经网络

1. 循环神经网络在介绍循环神经网络之前，我们先考虑一个大家阅读文章的场景。一般在阅读一个句子时，我们是一个字或是一个词的阅读，而在阅读的同时，我们能够记住前几个词或是前几句的内容。这样我们便能理解整个句子或是段落所表达的内容。循环神经网络便是采用的与此同样的原理。循环神经网络(RNN，Recurrent Neural Network)与其他如全连接神经网络、卷积神经网络相比，最大的特点在于...

2021-08-28 17:30:00 133

原创 Debezium-Flink-Hudi：实时流式CDC

目录1. 什么是Debezium2. Debezium常规使用架构3. 部署Debezium3.1. AWS EKS部署Kafka Connector4. Flink 消费Debezium 类型消息5. 写入Hudi表5.1. 依赖包问题5.2. Flink 版本问题6. Flink消费Debezium与写入Hudi测试7. 验证hudi表8. 总结References1. 什么是DebeziumDebezium是一个开源的分布式平台，用于捕捉变化数据

2021-05-25 00:12:20 2080 5

原创 ClickHouse介绍（四）ClickHouse使用操作

ClickHouse使用操作这章主要介绍在ClickHouse使用的各个操作的注意点。常规的统一语法不做详细介绍。1. Join操作在ClickHouse中，对连接操作定义了不同的精度，包含ALL、ANY和ASOF三种类型，默认为ALL。可以通过join_default_strictness配置修改默认精度(位于system.setting表中)。下面分别说明这3种精度。首先建表并插入测...

2021-04-19 14:50:00 283

原创 ClickHouse介绍（三）MergeTree系列表引擎

MergeTree系列表引擎ClickHouse中最核心的引擎当属MergeTree系列引擎，其中基础表引擎为MergeTree，常用的表引擎还有ReplacingMergeTree、SummingMergeTree、AggregatingMergeTree、CollapsingMergeTree和VersionedCollapsingMergeTree。每一种MergeTree的变种，在继承...

2021-04-16 22:41:00 145

原创 ClickHouse介绍（二）MergeTree引擎

MergeTree引擎ClickHouse中有多种表引擎，包括MergeTree、外部存储、内存、文件、接口等，6大类，20多种表引擎。其中最强大的当属MergeTree(及其同一家族中)引擎。我们在前面的建表例子中也使用了MergeTree引擎。MergeTree系列引擎，在写入一批数据时，数据是以数据片段(官网称为part)的形式一个接一个地快速写入，且此数据片段无法修改。这些数据片段会...

2021-04-14 23:54:00 188

原创 ClickHouse介绍（一）初次使用

ClickHouse使用ClickHouse是一个面向列存储的OLAP分析数据库，以其强大的分析速度而闻名。有关ClickHouse的介绍可以参考其官网说明[1]。本文主要介绍它的基本使用。1. 安装使用的环境为2台 AWS EC2，操作系统为Amazon Linux2。使用的ClickHouse为最新的stable版本v21.2.5.5-stable [2]。export LATES...

2021-04-14 23:28:00 74

原创使用AWS SageMaker进行机器学习项目

使用AWS SageMaker进行机器学习项目本文主要介绍如何使用AWS SageMaker进行机器学习项目。1. 题目使用的题目为阿里天池的“工业蒸汽量预测“，题目地址为：https://tianchi.aliyun.com/competition/entrance/231693/introduction给定的数据: 脱敏后的锅炉传感器采集的数据(采集频率为分钟级)预测目标: 根据...

2021-04-10 03:10:00 333

原创 Netty（三）Netty模型

1. Netty模型Netty主要基于主从Reactor多线程模型做了一定的改进，其中主从Reactor多线程模型有多个Reactor。简版图：说明：BossGroup线程维护Selector，只关注Accept当接收到Accept事件，获取到对应的SocketChannel，封装成NIOSocketChannel并注册到Worker线程(事件循环)，并进行维护当Worker线...

2021-04-06 12:16:00 47

原创 Netty（二）线程模型

1. Netty概述虽然Java已经提供了NIO，但原生NIO仍存在部分问题：NIO的类库和API繁杂，使用麻烦。需要熟练掌握Selector、ServerSocketChannel、SocketChannel、ByteBuffer等需要具备其他的额外技能：要熟悉Java多线程编程，因为NIO编程涉及到Reactor模式，必须对对多线程和网络编程非常熟悉，才能编写出高质量的NIO程序开...

2021-04-02 17:22:00 40

原创 Netty（一）IO模型

1. Netty介绍Netty 是由JBOSS提供的一个Jave开源框架，是一个异步地、基于事件驱动的网络应用框架，用以快速开发高性能、高可靠的网络IO程序。Netty主要针对在TCP协议下，面向Clients端的高并发应用，或者P2P场景下的大量数据持续传输的应用。Netty本质是一个NIO框架，适用于服务器通讯相关的多种应用场景。Netty的应用场景在分布式系统中，各个节点之间需要远...

2021-04-01 17:08:00 45

原创 Kubernetes（八）安全认证

安全认证本章主要介绍Kubernetes的安全认证机制。1. 访问控制概述Kubernetes作为一个分布式集群的管理工具，保证集群的安全性是其一个重要的任务。所谓的安全性其实就是保证对Kubernetes的各种客户端进行认证和鉴权操作。客户端在Kubernetes集群中，客户端通常有2类：User Account：一般是独立于Kubernetes之外的其他服务管理的用户帐号Se...

2021-03-28 13:30:00 37

原创 Kubernetes（七）数据存储

数据存储容器的生命周期可能很短，会被频繁地创建和销毁。容器在销毁时，保存在容器中的数据也会被清除。这种结果对用户来说，在某些情况下是不乐意看到的。为了持久化保存容器的数据，kubernetes引入了Volume的概念。Volume是Pod中能够被多个container访问的共享目录。它被定义在Pod上，然后被一个Pod里的多个容器挂载到具体的文件目录下。Kubernetes通过Volume实...

2021-03-27 15:48:00 49

原创 Kubernetes（五） Pod控制器详解

Pod控制器详解本章主要介绍Pod控制器的详细使用1. Pod控制器介绍在kubernetes中，按照pod的创建方式可以将其分为2类：自主式pod：kubernetes直接创建出来的pod，这种pod删除后就没有了，也不会重建控制器创建的pod：通过控制器创建的pod，这种pod删除后还会自动重建什么是Pod控制器？Pod控制器是管理pod的中间层，使用了pod控制器之后，我...

2021-03-13 13:45:00 56

原创 Kubernetes（四）Pod详解

Pod详解本章主要介绍Pod资源的各种配置(yaml文件)和原理1. Pod介绍如上图所示，每个Pod中都可以包含一个或多个Container，这些Containers 可以分为2类：用户程序所在的Container，数量可多可少Pause容器，这是每个Pod都会有的一个根容器，它的作用有2个：可以以它为依据，评估整个Pod的健康状态可以在跟容器上设置IP地址，其他容器都可以...

2021-03-12 11:07:00 125

原创 Kubernetes（三）实战入门

实战入门本章介绍如何在kubernetes集群中部署一个nginx服务，并能够对其进行访问。1. NamespaceNamespace主要作用是实现多套环境的资源隔离或者多租户的资源隔离。默认情况下，kubernetes 集群中的所有Pod都是可以相互访问的。但是在实际中，可能不希望让2个Pod之间进行相互访问，此时即可将两个Pod划分到不同的namespace下。Kubernetes通...

2021-03-10 11:09:00 46

原创 Kubernetes（二）资源管理

1. 资源管理介绍在kubernetes中，所有内容都抽象为资源，用户需要操作资源来管理kubernetes。Kubernetes本质上就是一个集群系统，用户可以在集群中部署各种服务，所谓的部署服务，其实就是在kubernetes集群中运行一个个的容器，并将指定的程序跑在容器中。Kubernetes的最小管理单元是pod而不是容器，所以只能将容器放在Pod中，而kubernetes一般也不...

2021-03-08 21:37:00 53

原创 Kubernetes（一）Overview

1. Kubernetes介绍要了解Kubernetes，首先我们需要了解Container与Orchestration。DockerDocker的出现是为了解决：部署依赖、以及兼容性、以及繁琐的启动配置问题Docker使用的是底层的OS(也就是docker中的share kernel)。在container中，虽然定义了AMI中的操作系统，但是实际上，Container中不会运行一个O...

2021-02-22 23:20:00 52

原创天池题目：工业蒸汽预测（一）- 数据探索

1. 题目介绍火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。数据为：经脱...

2021-01-05 22:54:00 56

原创 Bike Sharing Analysis（二）- 假设检验方法

假设检验假设检验是推论统计学(inferential statistics)的一个分支，也就是对一个较小的、有代表性的数据组(例如样本集合)进行分析与评估，并依此推断出一个大型的数据组(例如人口)的一般性结论。一个典型的例子如：估算一个国家中居民的平均身高(在这个场景下，也就是人口)。在估算时，可能会在1000个人(也就是样本)中进行分析以及评估，然后对整个国家里的居民平均身高进行估算。假设...

2020-11-19 20:55:00 62

原创 Bike Sharing Analysis（一）- 探索数据

1. Bike Sharing Analysis在这章主要介绍如何分析共享单车服务数据，以及如何基于时间、天气状态特征来识别单车的使用模式。除此之外，我们还会引入可视化分析，假设检验、以及时间序列分析的概念与方法。共享单车是城市里较为快速的通勤方式，了解用户使用共享单车所考虑的因素，对于公司和用户来说都是必须的。从公司的角度来看，了解某一个时间段某一区域里，用户对共享单车的需求，可以显著地...

2020-11-12 14:50:00 89

原创 Spark Structured Streaming（二）实战

5. 实战Structured Streaming5.1. Static版本先读一份static 数据：val static = spark.read.json("s3://xxx/data/activity-data/")static.printSchemaroot |-- Arrival_Time: long (nullable = true |-- Creation_Ti...

2020-06-12 11:40:00 100

原创降维（二）PCA

PCA主成成分分析(Principal Component Analysis，PCA)在目前是非常热门的降维算法。首先它找到一个最接近数据的超平面，然后将数据投影到这个平面上。保持方差(Preserving the Variance)在将训练集投影到一个低维超平面之前，我们首先要选择正确的超平面。例如，下图左图是一个简单的2D数据集，伴随有3个不同的轴(也就是1D超平面)。右边是数据集在每...

2020-04-08 20:57:00 55

原创 Kaggle 题目 nu-cs6220-assignment-1

Kaggle题目 nu-cs6220-assignment-1题目地址如下：https://www.kaggle.com/c/nu-cs6220-assignment-1/overview这是个二分类任务，需要预测一个人的收入，分为两类：收入大于50K，或是小于50K。1. 查看数据结构下载数据后，先大致了解数据：raw_data = load_data('nu-cs/trainin...

2020-03-16 17:31:00 112

原创 Flink架构（五）- 检查点，保存点，与状态恢复

检查点，保存点，与状态恢复Flink是一个分布式数据处理系统，这种场景下，它需要处理各种异常，例如进程终止、机器故障、网络中断等。因为tasks在本地维护它们的state，Flink必须确保在出现故障的情况下，state不会丢失，并且保持一致性。在这一节，我们会介绍Flink用于保证exactly-once state 一致性的检查点与恢复机制。我们也会讨论Flink独特的保存点功能。...

2019-10-26 21:14:00 173

原创 Apache Kafka（六）- High Throughput Producer

High Throughput Producer在有大量消息需要发送的情况下，默认的Kafka Producer配置可能无法达到一个可观的的吞吐。在这种情况下，我们可以考虑调整两个方面，以提高Producer 的吞吐。分别为消息压缩（message compression），以及消息批量发送（batching）。1. Message CompressionProduce...

2019-08-28 11:22:00 213 1

原创 Apache Kafka（五）- Safe Kafka Producer

Kafka Safe Producer在应用Kafka的场景中，需要考虑到在异常发生时（如网络异常），被发送的消息有可能会出现丢失、乱序、以及重复消息。对于这些情况，我们可以创建一个“safe producer”，用于规避这些问题。下面我们会先介绍对于这几种情况的说明以及配置，最后给出一个配置示例。1. acks 详述之前我们介绍过 Kafka Producer 的...

2019-08-25 19:53:00 125

原创 Apache Kafka（四）- 使用 Java 访问 Kafka

1. Produer1.1. 基本 Producer首先使用 maven 构建相关依赖，这里我们服务器kafka 版本为 2.12-2.3.0，pom.xml 文件为： 1 <?xml version="1.0" encoding="UTF-8"?> 2 <project xmlns="http://maven.apache.org/POM/4.0....

2019-08-11 18:28:00 152

空空如也

空空如也