- 博客(69)
- 收藏
- 关注
原创 我的区块链运维日记 · 第 9 日:幽灵交易 —— 被“跳号”卡死的资金流与 Nonce 管理
在区块链上,顺序就是生命。传统的 Web 开发里,请求失败了重试就行。但在区块链开发里,你手里拿的那个 Nonce 号码牌,是一次性的契约。要么用它完成转账,要么用它发个空包,千万别把它带进坟墓里。否则,整条链上的业务都会为你陪葬。
2026-01-27 14:55:13
265
原创 我的区块链运维日记 · 第 8 日:大水冲了龙王庙 —— 自家节点的“IP 拉黑”与限流危机
我冲进 AWS 控制台,发现 AMB 节点的 CPU 占用率只有 30%,内存也很健康。上午 10:30,TPS 刚冲到一个新高,监控大屏突然**“啪”**地一下,从绿色变成了刺眼的红色。是的,这是 AWS AMB 作为一个**托管服务(Managed Service)**的出厂设置。: 我在 CloudWatch 的网络监控里发现,Scanner 的出口 IP 流量被截断了。我们不需要改防火墙规则,我们需要**“学会礼貌”**。:每查一笔交易,就新建一个 TCP 连接,发请求,收数据,然后。
2026-01-27 14:41:55
305
原创 我的区块链运维日记 · 第 7 日:影子区块的诱惑 —— 多节点下的“重复充值”危机
在分布式系统里,‘一致性’是奢侈品。以前我觉得高可用就是多接几根管子。今天我才知道,管子接多了,流进来的不一定是水,可能是洪水。给数据库加上‘唯一锁’,并且学会区分‘草稿’和‘正文’,是每个区块链运维必须修满的学分。
2026-01-27 14:34:38
308
原创 我的区块链运维日记 · 第 6 日:Gas 费暴涨下的“提现罢工” —— 从技术急救到资金管理
在区块链的世界里,Gas 费就是生存税。RBF 加速、批量撤单、动态调价。我们不仅是修服务器的人,我们还是这辆载满资产的列车在暴风雪中唯一的领航员。Henry,这篇长文把第 6 天的所有技术细节和管理逻辑都闭环了。如果关于“资金流运维”这部分没有更多疑问,我们就可以准备进入下一天(第 7 天的多节点一致性问题)或者第 8 天(被防火墙拉黑)了。
2026-01-27 14:06:33
650
原创 我的区块链运维日记 · 第 5 日:权限的“软刀子” —— 那个沉默的 KMS 黑洞
凌晨刚处理完分叉(Reorg)的烂摊子,我给 Scanner 加上了 12 个块的确认逻辑。我本以为只要进程不挂,系统就是安全的。结果下午两点,运营主管 Sarah 差点把我的办公室门推坏了。“Henry!客户在群里炸了!钱转过去半小时了,APP 里连个‘处理中’都没有,你们系统是不是关门了?”我第一反应是看监控:CloudWatch 全线绿色,Scanner 进程 Running。 但我随手打开 Etherscan 一对比,冷汗瞬间就下来了:主网高度在 #12650,我的日志还在处理 #12500。落后了
2026-01-26 17:14:25
284
原创 我的区块链运维日记 · 第 4 日:死掉的“活”节点 —— 攻克“同步滞后(Lag)”
凌晨刚处理完分叉(Reorg)的烂摊子,我给 Scanner 加上了 12 个块的确认逻辑。我本以为只要进程不挂,系统就是安全的。结果下午两点,运营主管 Sarah 差点把我的办公室门推坏了。“Henry!客户在群里炸了!钱转过去半小时了,APP 里连个‘处理中’都没有,你们系统是不是关门了?”我第一反应是看监控:CloudWatch 全线绿色,Scanner 进程 Running。 但我随手打开 Etherscan 一对比,冷汗瞬间就下来了:主网高度在 #12650,我的日志还在处理 #12500。落后了
2026-01-26 17:11:00
299
原创 我的区块链运维日记 · 第 3 日:消失的余额 —— 我亲历的“时空逆转”
磁盘危机的警报声刚在我脑子里消停,我本想在办公室那张旧沙发上眯一会儿。还没合眼,首席架构师就推门进来了,那脸色比熬了夜的程序员还难看。“Henry,出大事了。”他把一张财务对账单拍在我面前,“对账发现,有几个大客户的余额凭空多了。RDS 数据库里清清楚楚写着‘充值成功’,但在上查,那几笔交易竟然‘消失’了!我惊坐起,残留的困意瞬间蒸发:“消失了?这不可能。我的 Scanner 程序是我亲手盯着写的,只有看到交易进块了才会写数据库。难道我们的 AMB 节点坏了,在给我喂假数据?
2026-01-26 11:14:31
485
原创 区块链运维日记 · 第 2 日:AMB 节点的“疯狂生长” —— 磁盘自杀事件
处理完 Nonce 的烂摊子,Henry 刚睡了三个小时,就被一阵急促的电话吵醒。值班运维 小李 在电话那头快哭出来了:“Henry 哥,快看 CloudWatch!我们的 AMB 节点 磁盘报警了,1TB 的 SSD,刚才还有 200GB,现在只剩 5GB 了!我每分钟手动扩容 50GB,它瞬间就吃光了!”Henry 心里咯噔一下,这可不是逻辑错误,这是物理崩溃。Henry 赶到公司,看到小李正疯狂地在控制台上点“Modify Volume”。 “别点了!你这是往无底洞里填钱!” Henry 按住了小李的
2026-01-26 11:06:57
572
原创 区块链运维日记 · 第 1 日(补遗):事故终章:Henry 的“清道夫”行动
Henry 看着最后一笔补偿交易在Etherscan上变绿,终于合上了笔记本。在区块链世界,数据库里的状态只是你的‘一厢情愿’,链上的确认才是‘最终审判’。运维的职责,就是确保这两个世界能对得上账。
2026-01-23 17:42:07
66
原创 区块链运维日记 · 第 1 日 :消失的 2000 笔提现 —— 致命的 Nonce 冲突
几千个用户在骂,说他们在 APP 里点了提现,界面显示‘处理中’,但过了半小时,链上什么都查不到!Alex 睡眼惺忪地连上 VPN:“Henry 哥,我看过监控了,API 全是 200 OK 啊,Signer 服务也没报错……“Sarah,” Henry 在 Slack 上回复,“告诉用户,不用担心。两分钟后,Alex 发来一张截图,声音开始发抖:“Henry 哥,日志里全是红的。区块链的写操作,天然是。Alex 愣了一下:“对啊,原本是 1 个,我怕扛不住 5000 并发,刚才紧急扩容到了。
2026-01-23 17:35:48
493
原创 [特殊字符] AWS 区块链交易系统架构结案白皮书
场景描述:用户 Alice 在某头部交易所 APP 发起一笔 10 ETH 的提现请求,目标地址为您的平台为您分配的充值地址。您的平台检测到大额入账后,自动通知用户并触发资金归集流程。
2026-01-23 17:24:40
569
原创 区块链架构的“神经系统”:SNS, SQS, Step Functions 与 AppSync 深度解析
用户发起:用户在手机 App 点击提现 -> 请求发给WAF/ALB->EKS。任务削峰:EKS 验证参数后,将提现任务丢进SQS(防止瞬时流量冲垮系统)。流程启动监听 SQS,取走任务,开始“签名-广播-等待确认”的漫长流程。人工介入:如果是大额,Step Functions 暂停,通过SNS发短信给老板。老板审批后流程继续。完结推送:流程结束,Step Functions 更新 RDS 数据库。前端感知AppSync监测到数据库变化,通过 WebSocket 瞬间通知用户手机:“提现已到账”。
2026-01-23 16:53:23
610
1
原创 AWS 全链路监控 (Application Signals/X-Ray) + EKS 实战落地指南
很多同学现在去控制台找 "X-Ray" 发现入口变了,这里澄清一下:AWS X-Ray (底层技术):它依然存在,是 AWS 的分布式追踪服务内核。它负责接收 Trace 数据、生成服务地图。CloudWatch Application Signals (现代入口):这是 AWS 推出的新一代 APM(应用性能监控)体验。它集成了 X-Ray,并加上了 SLO(服务等级目标)和自动化的黄金指标(错误率、延迟、吞吐量)。一句话总结:X-Ray 是引擎,Application Signals 是仪表盘。 我们现
2026-01-23 16:39:42
625
原创 生产级 Amazon MSK (Express 模式) 架构构建与选型实战白皮书
生产指令必须选“自定义构建”。运维逻辑:区块链业务对网络隔离要求极高。“快速创建”生成的默认 VPC 配置无法满足生产环境对私有子网和安全组的合规要求。维度最终选型配置核心价值类型存储计算分离,分钟级无痛扩容骨架 (数量)3 区 × 1 代理 = 3 节点满足物理 3AZ 容灾,成本最优肌肉 (规格)1000 分区容量,高性价比 Graviton 芯片安全无密码管理,金融级审计与权限隔离兜底策略动态调整上线后若不够用,可随时在控制台无缝升级规格或增加节点。
2026-01-22 17:05:39
810
原创 Web3 的数字金库:AWS KMS 在区块链项目中的深度应用与选型指南
在区块链世界中,“私钥”不仅是身份的唯一凭证,更是资产的直接控制权。对于交易所、托管钱包或 DApp 而言,私钥安全是生存的底线。传统开发模式将私钥存储在数据库或环境变量中,一旦服务器被攻破,资产瞬间归零。私钥永不出硬件,业务只调接口签名。本文将详解如何在区块链项目中正确配置和使用 KMS。在区块链项目中,KMS 不仅仅是一个加密工具,它是资产安全的基石。选型核心:钱包签名必选非对称 + ECC_SECG_P256K1。架构核心:采用多区域密钥以应对全球化部署的容灾需求。安全核心。
2026-01-20 17:40:55
637
原创 AWS KMS 深度配置指南:原理、场景与选型策略
业务需求推荐组合创建钱包私钥 (交易签名)非对称登录并验证KMS多区域加密数据库/磁盘对称加密和解密KMS多区域。
2026-01-20 17:40:08
586
原创 唯快不破:区块链项目的 Redis 缓存选型与实战指南
全球化大厂:请毫不犹豫选择Route 53 双域名策略。这是兼顾性能与开发体验的终极形态。成长型项目:坚持的经典组合。把钱花在 RDS 的配置上,Redis 做好它“缓存”的本职工作即可。
2026-01-20 17:09:38
568
原创 筑牢金融底座:企业级区块链全球化数据库架构设计白皮书
在 Web3 业务中,区块链(AMB)是不可篡改的“链上真理”,而关系型数据库(RDS/Aurora)则是承载用户资产、撮合逻辑和KYC信息的“链下业务核心”。跨国访问的物理延迟与资金数据的一致性。
2026-01-19 17:56:59
570
原创 [技术实战] 深入解析 MM2 在 MSK 跨区域灾备中的同步机制与关键配置
利用 MM2 进行 MSK 同步,配置的核心在于权衡“易用性”(Identity策略、零前缀)与“安全性”(循环风险、位移冲突)。您当前的配置方案是一套非常成熟的Active-Passive(主备)灾备模型。它成功解决了应用层面的改造成本问题,通过全量同步 Message 和 Offset,确保了数据资产的完整性。只要配合严格的Switch-Over(切换)和Switch-Back(回切)运维流程,这套配置就能成为保障业务高可用的坚实底座。
2026-01-19 14:14:16
616
原创 从“村口账本”到“全球银行”:基于 AWS 的企业级 Web3 交易系统架构
在深入架构之前,我们需要统一对“区块链”本质的理解。我们可以把它想象成**“全村共享的公共大黑板”**。去中心化账本 (AMB 节点): 过去,大家的钱记在村长(银行/中心化数据库)的小本子上。现在,村长退休了,村里每家每户门口都挂了一块大黑板。谁家转了账,必须大喊一声,全村人听到后,同时在自己家门口的黑板上写下这笔账。特点:没人能单独篡改数据,因为你改了一块黑板,跟全村对不上。私钥签名 (KMS): 既然是喊话记账,怎么防止张三冒充李四喊话?每个人手里都有一个**“私章”(私钥)**。
2026-01-15 17:59:50
601
原创 AWS Backup 核心操作与架构指南
全量备份策略下,已关机(Stopped)的 EC2 依然会产生备份费用。请定期清理废弃机器,或为其打上。核心业务数据库(Core DB)必须开启此功能,以应对“逻辑错误”(如误删了一张表)。开启后,AWS 会自动管理事务日志 (Binlog/WAL) 的上传。AWS Backup 的左侧导航栏并非简单的菜单,而是一个完整的。(留空代表选中当前区域下“所有”实例,包括未来新建的)。恢复后,需要手动修改应用程序的数据库连接配置。理解每一行的作用,能帮您快速定位问题。,确保数据不仅能“备下来”,还能“救回来”。
2026-01-12 15:02:43
956
原创 AWS S3 深度配置指南:每一栏每个选项有什么作用
本文档依据 AWS S3 控制台的任务栏顺序编写,旨在解析每个配置项背后的核心逻辑、生产环境中的“坑”以及业务场景。
2026-01-09 17:38:16
602
原创 后端开发者的 AWS Redis 避坑指南:ElastiCache 与 MemoryDB 该怎么选?
选引擎:闭眼选Valkey(除非你要维护老古董)。选服务如果数据丢了能从 MySQL 找回来 ->。如果数据是“孤本”,丢了就炸雷 ->MemoryDB。
2026-01-09 15:54:57
559
原创 后端开发者的大数据指挥官:AWS Airflow (MWAA) 实战指南
Airflow 是一个**“工作流编排平台”**(Workflow Orchestration Platform)。核心理念Configuration as Code (代码即配置)。你不需要在网页上拖拽连线,而是通过编写Python 代码来定义整个业务流程。它的角色:它是**“大脑”**,不是“肌肉”。它不处理数据(不搬运、不计算)。它只负责调度(触发 Glue 搬运、触发 Athena 计算、触发 Java 接口回调)。AWS MWAA:这是 AWS 托管的 Airflow 服务。
2026-01-09 15:33:07
705
原创 Ansible 工业级项目标准化架构指南 (V1.0)
如果要调用[all_ec2:children],其下的。里写一遍 user 和 key。写一遍 user 和 key。如果不是的话就把test组和。组虽然机器不同,但它们。
2026-01-09 15:31:26
451
原创 后端开发者的 AWS 大数据指南:从 RDS 到 Data Lake
为什么我们要绕这么大一圈,而不直接查 RDS?算存分离RDS:只负责每秒几千次的“小读写”(下单、支付)。Athena/S3:负责“一次扫描几亿行”的大分析。结果:无论你怎么查年度报表,RDS 的 CPU 负载纹丝不动,业务永不卡顿。Serverless 体验你不需要像维护 Nginx 那样维护 Spark 集群。AWS Glue 和 Athena 都是Serverless的——用的时候自动招募几百个“工人”,用完自动解散,按秒计费。技术解耦。
2026-01-09 14:53:04
698
原创 金融级企业出口网关架构设计与实施指南Enterprise Egress Gateway Architecture & Implementation Guide
针对当前的 EKS 集群和 DR 环境,Nginx 正向代理方案是架构上的最优解。满足了所有核心需求:通过 Map/Geo 实现了精细化的白名单控制,通过 Log 实现了合规审计。避免了不必要的成本:相比 AWS Network Firewall 或 Palo Alto,节省了巨额的授权费和流量费。保持了架构的简洁性:不需要改动 VPC 复杂的路由表,运维团队对 Nginx 语法也最为熟悉,技术风险最低。此方案具备极高的扩展性,未来如有更高并发需求,只需在前端增加 NLB 进行横向扩展即可。
2026-01-08 14:54:32
1013
原创 程序员眼里的 Elasticsearch:从“存 JSON”到“懂业务”的搜索艺术
【代码】程序员眼里的 Elasticsearch:从“存 JSON”到“懂业务”的搜索艺术。
2026-01-07 11:59:31
402
原创 AWS EKS三种类别,如何选择
TargetGroupBinding 或 Ingress。CloudWatch (ConfigMap 注入)完全屏蔽 EC2,按 Pod 计费。EFS (唯一持久化选择)HPA (原生无缝扩展)
2026-01-07 11:39:02
435
原创 AWS EC2 挂载新网卡不通?从网卡启动到策略路由的完整排查指南
然而,很多工程师(包括我自己)都会遇到一个经典问题:在 AWS 控制台点击“附加”成功后,服务器里却死活 ping 不通新网卡 IP,NLB 健康检查也报红。这篇文章复盘了从“网卡挂载”到“路由配置”的全过程,揭示了为什么“AWS 显示已附加”并不等于“网络已通”。场景:有一台 EC2(主网卡 ens5,IP 10.23.0.43)。操作:在 AWS 控制台附加了第二张网卡 ens6(IP 10.23.20.28),属于同一个 VPC 的另一个子网。问题:AWS 控制台显示网卡状态为 In-use(已使用)
2026-01-06 17:56:11
302
原创 EFS-EKS持续化存储
1.AWS控制台创建EFS,这里注意:一、要为EFS选择子网,必须要和EKS互通。4.测试,启动一个NGINX绑定PVC,查看挂载的目录,写入文件。3.在EKS创建 SC-PV-PVC,我直接贴yaml了(别听AI说的,不用创建SC或者PV,都TM乱说的。2.为了避免EFS中,不同的POD互相影响,我用了EFS接入点的方式,在EFS中创建不同的接入点。创建接入点的时候,会让选一些用户,用户组,建议都填0,权限给0777(这样pod连接上都可以用)背景:公司搭建了一套EKS集群,做持续化存储,决定用EFS。
2025-06-19 11:38:04
388
原创 [k8s]报错:Cannot connect to the Docker daemon at unix:///var/run/docker.sock
解释:/var/run/docker.sock文件,简单理解就是docker命令和docker守护进程之间,进行调用的一个凭证,如果你的docker守护进程没启动,或者该文件没有权限,那都调用不通,就会报错:Cannot connect to the Docker daemon at unix:///var/run/docker.sock。如果你希望其他用户或者脚本要长期调用,export DOCKER_HOST="tcp://127.0.0.1:2375"可以写到 /etc/profile中。
2024-12-16 14:19:38
2356
原创 [linux]磁盘空间大,程序报警显示没有存储空间
举例:当我发现一个日志文件比较大的时候,我直接通过命令rm -rf删除它,执行之后,在控制台就看不见了,但是实际上因为程序还在执行,该文件还存在。原因是因为磁盘空间不够了,没办法继续写入日志或者其他写入操作,导致无法运行。正常情况下,一步一步找到对应的目录,清理文件就对了,但是,我这里发生一个异常。找到异常的文件,关闭对应的程序,kill -9 PID,然后重启即可。明明各个空间的占用都不大,但是却显示/目录已经被使用完毕了。第7列SIZE/OFF是显示文件大小的,第二列的PID。
2024-12-05 22:01:24
696
原创 [SSL]Let‘s Encrypt生成免费的SSL证书
背景:Let's Encrypt是一款部署在linux上的中间件,使用它可以生成免费的SSL证书,有效期3个月,非常的便捷,证书生成后可以跑定时任务,每月或者每天刷新证书,证书永远就不会过期了。你只想生产一个SSL证书,并不是为了该台服务器配置,而是另有他用的时候,可以选择用DNS进行验证,直接生产证书。在DNS控制台增加成功后,进行验证,获得的证书在ls /etc/letsencrypt/live/目录下,可以下载。一、首先,购买一个域名可以在任何卖域名的网站Godaddy/AWS/aliyun等等。
2024-11-29 14:58:21
844
原创 [java]环境配置报错:-bash: /usr/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: No such file or director
但是,有时候会遇到一些傻逼服务器的yum源没有该文件,这个时候直接修改yum的repo仓库就行了。这种情况是缺少glibc.i686文件,通常直接命令下载就OK了。这个时候,报错解决啦。
2024-11-19 20:50:02
613
1
原创 [AWS]MKS调用报错:WARN Session 0x0 for server z-2.sconceptmqprd.y5xuv6.c1.kafka.me-central-1.amazonaws.co
以上的报错都是因为MSK的连接真的很麻烦。不能通过Apache ZooKeeper 的方式连接。其次要保证跳板机和MSK在一个VPC中。2.必做,下载 Amazon MSK IAM JAR 文件。java要用,这里要保证java-11以上的版本。1.登录跳板机,下载kafka命令。
2024-11-19 19:12:39
324
原创 [AWS]RDS数据库版本升级
在为数据库集群创建蓝/绿部署之前,请将数据库集群与启用逻辑复制的自,定义数据库集群参数组相关联。说尼玛那么复杂,其实就是在参数组没有启动binlog复制,但是RDS默认的default参数组,是不能进行修改的,所以不得不去创建一个参数组,这个就是要到每个读写实力里面,先去把版本升级了,极其傻逼,AWS变相赚你钱。这是你RDS启动了一个代理,要先把代理拿掉,不然建立不起蓝绿部署。更改之后,在进入集群和实例,把参数组该为你现在新设置的。还是按照报错三的方式,自建8.0的参数组,给实例和集群。
2024-10-18 13:45:35
894
原创 [NGINX]配置转发,unknown directive “stream“ in /etc/nginx/nginx.conf:33
背景:nginx需要配置一个代理转发,比如接收到6379端口之后,转发到其他url。这种情况比较适用于,办公室研发需要连接redis,但是redis的网络没有公网端口,需要配置一个nginx接受公网流量,转发redis。问题验证,如果再nginx -s reload重启nginx的时候,发现无法重启,或者没有nginx在启动。建议直接找出Nginx进程的Pid,kill -9 杀掉。然后通过/user/sbin/nginx启动。再次检查配置,发现成功了。
2024-10-15 18:39:20
743
原创 [AWS云]kafka调用和创建
背景:因为因为公司的项目需要使用AWS的kafka,但是在创建和使用过程中都遇到了一些报错和麻烦,毕竟老外的东西,和阿里云、华为使用起来还是不一样。因为AWS的kafka是使用zookeeper的方式进行管理的,所以要招zookeeper的方式进行连接,地址一定要选纯文本的方式。firehose就类似一个kafka的消费者端配置,我这边的消费者是AWS的S3。AI解读之后,可能会说:1.网络不通 2.地址问题 3.配置问题,都是鬼扯。其实就是kafka命令的版本问题,换了一个版本就解决了。
2024-10-11 14:34:05
679
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅