记两次Erlang服务器线上事故

最新推荐文章于 2023-08-15 15:56:49 发布

苦恼的山城号

最新推荐文章于 2023-08-15 15:56:49 发布

阅读量972

点赞数 1

分类专栏： Erlang 文章标签： erlang OOM 超时调度事故

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31369609/article/details/69053425

版权

这次的上线不太太平。虽然早就使用机器人进行了测试，也夸下海口理论上承载上万人不成问题，然而在上线前两天就发生了严重事故。尽管最终测试数据出乎意料的好，但整个项目为我们的傲慢和松懈付出了沉重的代价。被打脸之后，赶紧记一下以示警醒。

部分用户操作超时，大量用户进程启动失败

现象

游戏开放登陆之后，很快同时在线达到了1000左右。此时有玩家报告，部分交互操作出现了超时，并且在超时之后玩家登陆时服务器回报timeout错误。同时有玩家无法登陆，服务器根本就没有返回。我们立即查看了服务器机器的状态，此时内存和CPU的占用都绰绰有余，状态良好。使用etop查看Erlang中进程的状态，情况也没有异常，Reduction比较高的都是预料中的系统，消息队列中也没有太多积压。

查看日志之后，发现大量操作在对玩家进程进行gen_server:call()时就发生了超时，显然玩家进程在忙于做其他事情，而且也并未产生太高的Reduction。对阻塞的玩家进程调用process_info()后，能获得的信息非常有限。而无法登陆的错误，根本就没有明显的报错。

排查

我们意识到，用户操作超时就是由于有的用户进程启动失败造成的。我们的玩家有一些操作需要唤醒其他未登录玩家的进程，显然是需要被唤醒的玩家进程也出现了启动失败的情况。而

最低0.47元/天解锁文章

苦恼的山城号

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
记两次Erlang服务器线上事故

Erlang的线上事故处理。分别为supervisor引起的频繁超时和玩家异常数据造成的内存暴涨。希望对遇到类似问题的同僚有所帮助。
复制链接

扫一扫

专栏目录

苦恼的山城号 CSDN认证博客专家 CSDN认证企业博客

码龄9年

2: 原创

95万+: 周排名

50万+: 总排名

3811: 访问

: 等级

78: 积分

0: 粉丝

1: 获赞

6: 评论

2: 收藏

私信

关注

热门文章

分类专栏

Erlang 2篇
并发 1篇

最新评论

记两次Erlang服务器线上事故
苦恼的山城号回复 qq_15588667: 只能说当年同事写的太随意了
记两次Erlang服务器线上事故
超帅的土拨鼠: 6666
记两次Erlang服务器线上事故
qq_15588667: 这个购买参数如果是要动态获取一开始是要考虑下安全问题的,不过一般都是固定价格,一般不会出现这种问题
Erlang调度器的一些细节以及它重要的原因（译文）
苦恼的山城号回复 morin.wei: hi，问题解决了吗？如果我的理解没有错的话，应该修改schedulers吧... 这篇文章其实比较简略，坚强哥的博客里有比较详细的。
Erlang调度器的一些细节以及它重要的原因（译文）
morin.wei: schedulers_online，修改之后没生效，根据top -H -p port查看rabbitmq还是会有跟cpu数量一样多的scheduler

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。