自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 AWS Glue批量同步OpenSearch数据入Redshift

1. 目标使用Glue同步AWS OpenSearch数据到Redshift。2. 加载测试数据AOS创建索引并写入:curl -X POST -u 'xx:xxx' 'https://vpc-knn-4r272pshdggabtlhihabz7clba.ap-northeast-1.es.amazonaws.com/dot_common/_doc' \ -H 'Content-T...

2023-08-30 10:18:00 270

原创 Flink-读Kafka写Hive表

1. 目标使用Flink读取Kafka数据并实时写入Hive表。2. 环境配置EMR环境:Hadoop 3.3.3, Hive 3.1.3, Flink 1.16.0根据官网描述:https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/connectors/table/hive/overview/当前Flink ...

2023-08-29 21:03:00 1015

原创 Stable Diffusion(二)WebUI使用指南

1. 前言基于https://stable-diffusion-art.com/内的教程进行翻译与整理,帮助快速上手 stable-diffusion 的使用。2. 环境AWS DeepLearning AMI3. 部署Stable Diffusion web UIWeb UI github:https://github.com/AUTOMATIC1111/stable-diff...

2023-04-16 22:52:00 1014

原创 Stable Diffusion(三)Dreambooth finetune模型

1. DreamboothDreambooth可以把你任何喜欢的东西放入Stable Diffusion模型。1.1. 什么是Dreambooth最初由谷歌在2022年发布,是对SD模型的fine-tune技术。可以把自己喜欢的东西注入到SD模型中。为什么称为Dreambooth?根据谷歌团队的解释:它就像一个照相馆,在对这个东西拍照后,就可以合成到你梦想中的任何地方。下面是论文中给的...

2023-04-16 22:52:00 520

原创 Stable Diffusion(一)Stable Diffusion 原理

Stable Diffusion原理此文为译文,原文见:https://stable-diffusion-art.com/how-stable-diffusion-work/Stable Diffusion是一个深度学习模型,我们会深入解析SD的工作原理。1. Stable Diffusion能做什么直白地说,SD是一个text-to-image模型,通过给定text prompt(文...

2023-04-16 22:12:00 694

原创 在 AWS 平台搭建 DolphinScheduler

AWS平台搭建 DolphinSchedulerDolphinScheduler 是当前热门的调度器,提供了完善的可视化、拖拉拽式的调度。在 AWS 平台上提供了 airflow 与 step function 这两种调度工具,但两者在可视化操作上的支持较为有限,无法满足所有AWS用户场景。有部分用户、场景对 DolphinSchduler 有需求,所以本文提供了详细的在 AWS 上搭建 Do...

2022-06-15 23:29:00 67

原创 NLP与深度学习(六)BERT模型的使用

从头开始训练一个BERT模型是一个成本非常高的工作,所以现在一般是直接去下载已经预训练好的BERT模型。结合迁移学习,实现所要完成的NLP任务。谷歌在github上已经开放了预训练好的不同大小的BERT模型,可以在谷歌官方的github repo中下载[1]。以下是官方提供的可下载版本:其中L表示的是encoder的层数,H表示的是隐藏层的大小(也就是最后的前馈网络中的神经元个数,等同于...

2021-10-09 23:13:00 111

原创 NLP与深度学习(五)BERT预训练模型

1. BERT简介Transformer架构的出现,是NLP界的一个重要的里程碑。它激发了很多基于此架构的模型,其中一个非常重要的模型就是BERT。BERT的全称是Bidirectional Encoder Representation from Transformer,如名称所示,BERT仅使用了Transformer架构的Encoder部分。BERT自2018年由谷歌发布后,在多种NLP...

2021-09-30 20:35:00 52

原创 Prometheus监控系统(三)Prometheus与Grafana集成

1. Prometheus和Grafana集成Grafana是一款采用Go语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具。目前已支持绝大部分常用的时序数据库。下载地址为:https://grafana.com/grafana/download安装Grafana:wget https://dl.grafana.com/enterpr...

2021-09-24 22:45:00 37

原创 Prometheus监控系统(二)Prometheus部署与使用

1. Prometheus安装官网:https://prometheus.io/下载地址:https://prometheus.io/download/Prometheus基于Golang编写,编译后的软件包不依赖于任何第三方依赖。只需要下载对应平台的二进制包,解压并添加基本的配置即可正常启动Prometheus Server。1.1. 安装Prometheus Server下载安装包...

2021-09-24 22:42:00 74

原创 Prometheus监控系统(一)Prometheus介绍

1. Prometheus简介Prometheus受启发于Google的Brogmon监控系统(类似kubernetes是从Google的Brog系统演变而来)。于2012年以开源形式发布,在2015年对外发布早期版本。2016年发布1.0版本,2017年发布基于全新存储层的2.0版本,能更好地与容器平台、云平台配合。当前Prometheus已经称为新一代的云原生监控系统。2. Prome...

2021-09-24 18:54:00 35

原创 NLP与深度学习(四)Transformer模型

1. Transformer模型在Attention机制被提出后的第3年,2017年又有一篇影响力巨大的论文由Google提出,它就是著名的Attention Is All You Need[1]。这篇论文中提出的Transformer模型,对自然语言处理领域带来了巨大的影响,使得NLP任务的性能再次提升一个台阶。Transformer是一个Seq2Seq架构的模型,所以它也由Encoder...

2021-09-14 00:10:00 40

原创 NLP与深度学习(三)Seq2Seq模型与Attention机制

1. Attention与Transformer模型Attention机制与Transformer模型,以及基于Transformer模型的预训练模型BERT的出现,对NLP领域产生了变革性提升。现在在大型NLP任务、比赛中,基本很少能见到RNN的影子了。大部分是BERT(或是其各种变体,或者还加上TextCNN)做特征提取(feature extraction)或是微调(fine-tun...

2021-09-02 00:45:00 47

原创 NLP与深度学习(二)循环神经网络

1. 循环神经网络在介绍循环神经网络之前,我们先考虑一个大家阅读文章的场景。一般在阅读一个句子时,我们是一个字或是一个词的阅读,而在阅读的同时,我们能够记住前几个词或是前几句的内容。这样我们便能理解整个句子或是段落所表达的内容。循环神经网络便是采用的与此同样的原理。循环神经网络(RNN,Recurrent Neural Network)与其他如全连接神经网络、卷积神经网络相比,最大的特点在于...

2021-08-28 17:30:00 76

原创 Debezium-Flink-Hudi:实时流式CDC

目录1. 什么是Debezium2. Debezium常规使用架构3. 部署Debezium3.1. AWS EKS部署Kafka Connector4. Flink 消费Debezium 类型消息5. 写入Hudi表5.1. 依赖包问题5.2. Flink 版本问题6. Flink消费Debezium与写入Hudi测试7. 验证hudi表8. 总结References1. 什么是DebeziumDebezium是一个开源的分布式平台,用于捕捉变化数据

2021-05-25 00:12:20 1942 5

原创 ClickHouse介绍(四)ClickHouse使用操作

ClickHouse使用操作这章主要介绍在ClickHouse使用的各个操作的注意点。常规的统一语法不做详细介绍。1. Join操作在ClickHouse中,对连接操作定义了不同的精度,包含ALL、ANY和ASOF三种类型,默认为ALL。可以通过join_default_strictness配置修改默认精度(位于system.setting表中)。下面分别说明这3种精度。首先建表并插入测...

2021-04-19 14:50:00 112

原创 ClickHouse介绍(三)MergeTree系列表引擎

MergeTree系列表引擎ClickHouse中最核心的引擎当属MergeTree系列引擎,其中基础表引擎为MergeTree,常用的表引擎还有ReplacingMergeTree、SummingMergeTree、AggregatingMergeTree、CollapsingMergeTree和VersionedCollapsingMergeTree。每一种MergeTree的变种,在继承...

2021-04-16 22:41:00 77

原创 ClickHouse介绍(二)MergeTree引擎

MergeTree引擎ClickHouse中有多种表引擎,包括MergeTree、外部存储、内存、文件、接口等,6大类,20多种表引擎。其中最强大的当属MergeTree(及其同一家族中)引擎。我们在前面的建表例子中也使用了MergeTree引擎。MergeTree系列引擎,在写入一批数据时,数据是以数据片段(官网称为part)的形式一个接一个地快速写入,且此数据片段无法修改。这些数据片段会...

2021-04-14 23:54:00 47

原创 ClickHouse介绍(一)初次使用

ClickHouse使用ClickHouse是一个面向列存储的OLAP分析数据库,以其强大的分析速度而闻名。有关ClickHouse的介绍可以参考其官网说明[1]。本文主要介绍它的基本使用。1. 安装使用的环境为2台 AWS EC2,操作系统为Amazon Linux2。使用的ClickHouse为最新的stable版本v21.2.5.5-stable [2]。export LATES...

2021-04-14 23:28:00 35

原创 使用AWS SageMaker进行机器学习项目

使用AWS SageMaker进行机器学习项目本文主要介绍如何使用AWS SageMaker进行机器学习项目。1. 题目使用的题目为阿里天池的“工业蒸汽量预测“,题目地址为:https://tianchi.aliyun.com/competition/entrance/231693/introduction给定的数据: 脱敏后的锅炉传感器采集的数据(采集频率为分钟级)预测目标: 根据...

2021-04-10 03:10:00 216

原创 Netty(三)Netty模型

1. Netty模型Netty主要基于主从Reactor多线程模型做了一定的改进,其中主从Reactor多线程模型有多个Reactor。简版图:说明:BossGroup线程维护Selector,只关注Accept当接收到Accept事件,获取到对应的SocketChannel,封装成NIOSocketChannel并注册到Worker线程(事件循环),并进行维护当Worker线...

2021-04-06 12:16:00 31

原创 Netty(二)线程模型

1. Netty概述虽然Java已经提供了NIO,但原生NIO仍存在部分问题:NIO的类库和API繁杂,使用麻烦。需要熟练掌握Selector、ServerSocketChannel、SocketChannel、ByteBuffer等需要具备其他的额外技能:要熟悉Java多线程编程,因为NIO编程涉及到Reactor模式,必须对对多线程和网络编程非常熟悉,才能编写出高质量的NIO程序开...

2021-04-02 17:22:00 25

原创 Netty(一)IO模型

1. Netty介绍Netty 是由JBOSS提供的一个Jave开源框架,是一个异步地、基于事件驱动的网络应用框架,用以快速开发高性能、高可靠的网络IO程序。Netty主要针对在TCP协议下,面向Clients端的高并发应用,或者P2P场景下的大量数据持续传输的应用。Netty本质是一个NIO框架,适用于服务器通讯相关的多种应用场景。Netty的应用场景在分布式系统中,各个节点之间需要远...

2021-04-01 17:08:00 24

原创 Kubernetes(八)安全认证

安全认证本章主要介绍Kubernetes的安全认证机制。1. 访问控制概述Kubernetes作为一个分布式集群的管理工具,保证集群的安全性是其一个重要的任务。所谓的安全性其实就是保证对Kubernetes的各种客户端进行认证和鉴权操作。客户端在Kubernetes集群中,客户端通常有2类:User Account:一般是独立于Kubernetes之外的其他服务管理的用户帐号Se...

2021-03-28 13:30:00 23

原创 Kubernetes(七)数据存储

数据存储容器的生命周期可能很短,会被频繁地创建和销毁。容器在销毁时,保存在容器中的数据也会被清除。这种结果对用户来说,在某些情况下是不乐意看到的。为了持久化保存容器的数据,kubernetes引入了Volume的概念。Volume是Pod中能够被多个container访问的共享目录。它被定义在Pod上,然后被一个Pod里的多个容器挂载到具体的文件目录下。Kubernetes通过Volume实...

2021-03-27 15:48:00 31

原创 Kubernetes(五) Pod控制器详解

Pod控制器详解本章主要介绍Pod控制器的详细使用1. Pod控制器介绍在kubernetes中,按照pod的创建方式可以将其分为2类:自主式pod:kubernetes直接创建出来的pod,这种pod删除后就没有了,也不会重建控制器创建的pod:通过控制器创建的pod,这种pod删除后还会自动重建什么是Pod控制器?Pod控制器是管理pod的中间层,使用了pod控制器之后,我...

2021-03-13 13:45:00 35

原创 Kubernetes(四)Pod详解

Pod详解本章主要介绍Pod资源的各种配置(yaml文件)和原理1. Pod介绍如上图所示,每个Pod中都可以包含一个或多个Container,这些Containers 可以分为2类:用户程序所在的Container,数量可多可少Pause容器,这是每个Pod都会有的一个根容器,它的作用有2个:可以以它为依据,评估整个Pod的健康状态可以在跟容器上设置IP地址,其他容器都可以...

2021-03-12 11:07:00 73

原创 Kubernetes(三)实战入门

实战入门本章介绍如何在kubernetes集群中部署一个nginx服务,并能够对其进行访问。1. NamespaceNamespace主要作用是实现多套环境的资源隔离或者多租户的资源隔离。默认情况下,kubernetes 集群中的所有Pod都是可以相互访问的。但是在实际中,可能不希望让2个Pod之间进行相互访问,此时即可将两个Pod划分到不同的namespace下。Kubernetes通...

2021-03-10 11:09:00 20

原创 Kubernetes(二)资源管理

1. 资源管理介绍在kubernetes中,所有内容都抽象为资源,用户需要操作资源来管理kubernetes。Kubernetes本质上就是一个集群系统,用户可以在集群中部署各种服务,所谓的部署服务,其实就是在kubernetes集群中运行一个个的容器,并将指定的程序跑在容器中。Kubernetes的最小管理单元是pod而不是容器,所以只能将容器放在Pod中,而kubernetes一般也不...

2021-03-08 21:37:00 34

原创 Kubernetes(一)Overview

1. Kubernetes介绍要了解Kubernetes,首先我们需要了解Container与Orchestration。DockerDocker的出现是为了解决:部署依赖、以及兼容性、以及繁琐的启动配置问题Docker使用的是底层的OS(也就是docker中的share kernel)。在container中,虽然定义了AMI中的操作系统,但是实际上,Container中不会运行一个O...

2021-02-22 23:20:00 21

原创 天池题目:工业蒸汽预测(一)- 数据探索

1. 题目介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。数据为:经脱...

2021-01-05 22:54:00 33

原创 Bike Sharing Analysis(二)- 假设检验方法

假设检验假设检验是推论统计学(inferential statistics)的一个分支,也就是对一个较小的、有代表性的数据组(例如样本集合)进行分析与评估,并依此推断出一个大型的数据组(例如人口)的一般性结论。一个典型的例子如:估算一个国家中居民的平均身高(在这个场景下,也就是人口)。在估算时,可能会在1000个人(也就是样本)中进行分析以及评估,然后对整个国家里的居民平均身高进行估算。假设...

2020-11-19 20:55:00 34

原创 Bike Sharing Analysis(一)- 探索数据

1. Bike Sharing Analysis在这章主要介绍如何分析共享单车服务数据,以及如何基于时间、天气状态特征来识别单车的使用模式。除此之外,我们还会引入可视化分析,假设检验、以及时间序列分析的概念与方法。共享单车是城市里较为快速的通勤方式,了解用户使用共享单车所考虑的因素,对于公司和用户来说都是必须的。从公司的角度来看,了解某一个时间段某一区域里,用户对共享单车的需求,可以显著地...

2020-11-12 14:50:00 44

原创 Spark Structured Streaming(二)实战

5. 实战Structured Streaming5.1. Static版本先读一份static 数据:val static = spark.read.json("s3://xxx/data/activity-data/")static.printSchemaroot |-- Arrival_Time: long (nullable = true |-- Creation_Ti...

2020-06-12 11:40:00 51

原创 降维(二)PCA

PCA主成成分分析(Principal Component Analysis,PCA)在目前是非常热门的降维算法。首先它找到一个最接近数据的超平面,然后将数据投影到这个平面上。保持方差(Preserving the Variance)在将训练集投影到一个低维超平面之前,我们首先要选择正确的超平面。例如,下图左图是一个简单的2D数据集,伴随有3个不同的轴(也就是1D超平面)。右边是数据集在每...

2020-04-08 20:57:00 28

原创 Kaggle 题目 nu-cs6220-assignment-1

Kaggle题目 nu-cs6220-assignment-1题目地址如下:https://www.kaggle.com/c/nu-cs6220-assignment-1/overview这是个二分类任务,需要预测一个人的收入,分为两类:收入大于50K,或是小于50K。1. 查看数据结构下载数据后,先大致了解数据:raw_data = load_data('nu-cs/trainin...

2020-03-16 17:31:00 84

原创 Flink架构(五)- 检查点,保存点,与状态恢复

检查点,保存点,与状态恢复Flink是一个分布式数据处理系统,这种场景下,它需要处理各种异常,例如进程终止、机器故障、网络中断等。因为tasks在本地维护它们的state,Flink必须确保在出现故障的情况下,state不会丢失,并且保持一致性。在这一节,我们会介绍Flink用于保证exactly-once state 一致性的检查点与恢复机制。我们也会讨论Flink独特的保存点功能。...

2019-10-26 21:14:00 113

原创 Apache Kafka(六)- High Throughput Producer

High Throughput Producer在有大量消息需要发送的情况下,默认的Kafka Producer配置可能无法达到一个可观的的吞吐。在这种情况下,我们可以考虑调整两个方面,以提高Producer 的吞吐。分别为消息压缩(message compression),以及消息批量发送(batching)。1. Message CompressionProduce...

2019-08-28 11:22:00 164 1

原创 Apache Kafka(五)- Safe Kafka Producer

Kafka Safe Producer在应用Kafka的场景中,需要考虑到在异常发生时(如网络异常),被发送的消息有可能会出现丢失、乱序、以及重复消息。对于这些情况,我们可以创建一个“safe producer”,用于规避这些问题。下面我们会先介绍对于这几种情况的说明以及配置,最后给出一个配置示例。1. acks 详述之前我们介绍过 Kafka Producer 的...

2019-08-25 19:53:00 103

原创 Apache Kafka(四)- 使用 Java 访问 Kafka

1. Produer1.1. 基本 Producer首先使用 maven 构建相关依赖,这里我们服务器kafka 版本为 2.12-2.3.0,pom.xml 文件为: 1 <?xml version="1.0" encoding="UTF-8"?> 2 <project xmlns="http://maven.apache.org/POM/4.0....

2019-08-11 18:28:00 124

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除