andyliuzhii-CSDN博客

原创 fluent-bit日志上传到s3-efs

extra.conf根据实际情况监控路径，402097323/fleuntbit:v3 这个镜像要启动容器，然后把extra.conf文件复制到根路径下。

2023-05-09 20:22:26 1027

kubectl create deployment dryrun-test --image=nginx --port=80 --replicas=3 --dry-run # yaml清单。kubectl run dryrun-test --image=nginx --port=80 --replicas=3 --dry-run -o json #json清单。#定义Pod副本将使用的标签，需与前面的.spec.selector.matchLabels定义的标签保持一致。

2023-05-09 14:19:53 604

原创 IAM角色

例如，从s3读取存储桶权限的角色，ec2是该角色中的受信任关系，则只有ec2实例可以实现此角色并且可以访问此s3存储桶，aws中（如 rds / elasticsearch / amplify 等）等服务不可能承担此角色并获取此应用程序的配置文件。应用程序在ec2上运行，这些服务之间的此要求中的受信任关系将是 -> ，我在 ec2 上运行的应用程序可以假设角色（my-app-role）并访问（其中包含正确的策略）到 s3 并获得配置文件。

2023-05-03 19:05:27 1125

原创 ecs思考

环境思考

2023-05-01 10:34:22 603

原创 ECS iam角色设置

iam权限和认证

2023-05-01 10:12:17 789

原创 AWSFireLens轻松实现容器日志处理

Amazon Kinesis Firehose 传输流和flunet-bit上传aws容器日志到S3

2023-05-01 09:31:19 1190

原创 Dockerfile样例

ecs集群相关知识

2023-04-29 14:40:38 576

原创 lambda访问dynamicDB

lambda访问dynamicDB

2022-06-26 19:34:14 343

原创 ecs-task

env_test

2022-06-25 18:53:39 199

原创 terraform登录ec2实例

Terraform工具使用详解

2022-05-03 17:33:36 973

原创 jvm资料梳理

2019-03-21 14:13:51 291

原创 mapreduce读取orc文件代码

pom.xml 内容：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven

2018-06-13 15:03:51 1228 1

原创基于大数据技术构建数仓模型实践

最近刚接触一个线上运行的数仓环境，是针对用户流量日志做点击量指标的多维度分析，维度表每天一个快照，经过数据统计分析发现有的维度表数据量很大，每天竟然有5亿多条的素材日志，并且这些维度数据是渐变维度，数据存储在亚马逊S3文件系统上面，严重浪费公司的存储成本，同时要是查询跨度一个周的数据则涉及到的维度数据就40亿条进行关联，这还不算其他维度的统计在内，个人观点，涉及到这些大维度数据的统...

2018-04-13 13:50:24 4266 1

原创 hiveSQL优化思路

主要涉及到数据存储和计算两个过程，设计出合理的数据存储格式对于数据的查询和计算具有很重要的意义。存储的优化思想就是查询数据时能够很快定位到需要的数据，通过索引技术或者缩小检索数据范围来解决；传统数据库领域通过采用索引技术来优化数据的存储达到高效检索访问，在hive数仓技术中也有索引技术，但是，最常用的技术是分区和分桶技术。表存储思想：根据表字段变更的频率进行水平拆分...

2018-04-12 17:45:36 3595

原创 mapreduce流程梳理

在Map阶段：RecordReader --> mapper.map() ---> partitioner ---->[字节数组内存缓冲区] --->Spill(Sort / Combiner) ---> merge(Combiner)在Reduce阶段： copy --->[字节数组内存缓冲区] --->Spill(Sort / Combiner) ...

2018-04-12 17:42:37 365

原创性能优化思路与具体问题分析过程

性能优化方法论：1.计算机领域主要涉及到通信、计算和存储三项指标，从硬件的角度对应网卡、CPU和内存、磁盘，对应的衡量指标网络IO、CPU赫兹、存储IO；2.性能优化定位瓶颈，网络IO优化：1)网卡可以购买万兆网卡；2)采用高效的数据序列化和反序列机制；3)可以减少网络传输的数据量，借鉴大数据数据动代码动的分布式计算思路，即能本地化计算就本地化计算，否则，就想办法减少网络传输的数据量，...

2018-04-09 15:43:29 1132

原创基于Spark技术实现大规模时间序列异常检测成功落地

最近一直忙于异常检测项目的上线，一直没有时间来更新博客，该系统已经在大规模时间序列场景稳定运行1个多月，简单总结一下。达到的目标，通过Spark对3万个服务器进行预测，每个服务器包括5个指标，每个指标对应一个时间序列，模型全量15万，全量训练用21个Core耗时3个小时，预测程序12个core运行状态良好，整个系统已经平稳运行一个月，整个系统预估能够支持上亿个模型进行同时训练和预测。设计到

2018-01-10 09:36:43 6977 10

原创基于时间序列的异常检测系统的实现思路之一

技术方案：Spark、kafka、opentsdb、Yahoo的egads模型静态训练：采用两种算法进行模型的训练：指数移动平均和HotWinters，模型一天训练一次，即每天0点开始训练，每天凌晨0:5分根据训练好的模型进行异常检测，具体包括点的预测以及点的异常检测；模型实时训练：HotWinters根据3个指标进行预测，其中两个可以进行静态的训练，另外一个指标在进行异常检测之后要对模

2017-08-31 16:21:50 8536

原创 window操作系统搭建Spark开发调试环境

1 搭建环境前写个demo代码；2 安装配置jdk1.8；3 安装配置scala2.11.18；4 导入pom.xml中依赖jar；5 下载Hadoop的bin包,设定环境变量HADOOP_HOME，值为解压后的目录(http://hadoop.apache.org/releases.html下载)；6 下载winutils.exe将其放到$HADOOP_HOME/bin/目录下(htt...

2017-08-25 11:06:03 605

原创 ml_高级算子

1、reduce函数和combine函数必须满足交换律(commutative)和结合律(associative)2、从aggregate 函数的定义可知，combine函数的输出类型必须和输入的类型一致 scala> def seqOP(a:Int, b:Int) : Int = { | println("seqOp: " + a + "\t" + b)

2017-08-09 17:47:04 337

原创 EGADS学习资料

EGADS 是Yahoo一个开源的大规模时间序列异常检测项目：一个是时间序列构造模块，另一个是异常检测模块。给定一段时间的离散值（构成一个序列），时间序列模块会学习这段序列的特征，并试图重新构建一个和原序列尽量接近的序列，结果和原序列一同送入异常检测模块，基于不同的算法（原则，阈值），异常点会被标记出来。时间序列构造模块提供了多种算法：Olympic Mod

2017-08-07 17:34:59 4531

原创 cglib和asm的版本冲突问题_SparkStreaming

17/08/04 10:31:00 ERROR executor.Executor: Exception in task 0.0 in stage 3.0 (TID 71)java.lang.IncompatibleClassChangeError: class net.sf.cglib.core.DebuggingClassWriter has interface org.objectweb

2017-08-07 17:30:35 2189

原创常用命令与优化思路

bin/spark-shell --master yarn-clientspark.executor.memory=26000M,\ spark.executor.cores=4,\ spark.executor.instances=5,\ spark.driver.cores=4,\ spark.driver.memory=24000M,\ spark.defau

2017-08-07 17:24:43 441

原创 SparkStreaming读取kafka数据进行反序列化以及mapPartition优化实例

val monitorWrappedMessage1 = KafkaUtils.createStream[String, Array[Byte], StringDecoder, DefaultDecoder]( ssc, kafkaParams, topicMap, StorageLevel.MEMORY_AND_DISK_SER_2).mapPartitions( partit

2017-08-07 17:15:58 2729

原创 combineByKey算子求解平均值实例

不同场景平均值算法求平均值系列之一：val input = sc.parallelize(Seq(("t1", 1), ("t1", 2), ("t1", 3), ("t2", 2), ("t2", 5)))val result = input.combineByKey( (v) => (v, 1), (acc: (Int, Int), v) => (acc._1 +

2017-08-07 16:47:52 1461

原创 SparkSteaming进行UV统计

需求：每个一分钟统计一次最近一个小时UV 思考过程：由于UV是矢量数据，不能每分钟的UV最一个统计，在基于每分钟的计算结果进行累加计算出最近一个小时用户量的求和。SparkStreaming提供的窗口函数，比较知名的reduceByKeyAndWindow开窗函数，该函数一般用于对标量数据的统计，例如，用户访问量、点击量等；通过对该算子源代码解读，了解到该算子通过重叠两个窗口之间的统计

2017-06-29 17:17:37 2811

andyliuzhii的专栏

原创 ECS创建过程-图片