
IT运维
文章平均质量分 79
架构师研究会
有20多年IT工作经历,目前在一家500强做企业架构。因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师研究会】和【开发者开聊】,有更多的内容分享。
展开
-
【MLOps】使用Ray缩放AI
Ray是一个开源的统一计算框架,可以轻松扩展人工智能和Python的工作负载,从强化学习到深度学习,再到模型调整和服务。下面是Ray的最新架构。它主要有三个组件:Ray Core、Ray AI Runtime和Storage and Tracking。Ray MeetupRay Core为构建和扩展分布式应用程序提供了少量核心原语(即任务、参与者、对象)。Ray AI Runtime(AIR)是一个可扩展的统一ML应用工具包。原创 2024-01-05 20:07:44 · 987 阅读 · 0 评论 -
【开源软件】2022年最佳开源软件-排名第一:AlmaLinux
世界需要更多的Linux发行版吗?很多商业软件已经在Red Hat Enterprise Linux上实现了标准化。RHEL的基本免费版本是CentOS,Red Hat收购了它,并基本上扼杀了它,至少作为RHEL的替代品。不出所料,许多使用CentOS的人对此表现不佳,导致Rocky Linux和AlmaLinux的出现来填补这一空白。AlmaLinux声称与RHEL的二进制兼容性和社区所有权。原创 2023-12-21 20:43:40 · 504 阅读 · 0 评论 -
【开源软件】最好的开源软件-2023-第二名: Podman
容器管理来了Podman。实际上,Podman 1.0是在2019年发布的。与Docker不同,Podman可以作为一个进程运行,没有特权的用户,与Docker无根相比限制相对较少。此外,Podman中的容器映像和pod往往比Docker中的要小。此外,您可以直接在Podman中构建Kubernetes pod。迁移甚至可以像别名docker=podman一样简单,因为podman支持许多相同的命令。也许你想脱离束缚,成为一个Pod Man?原创 2023-12-21 20:37:59 · 462 阅读 · 0 评论 -
【开源软件】最好的开源软件-2023-第三名 Docker
当然,你可以用你的笔记本电脑、EKS或GKE或其他什么东西做所有的事情,但如果你只想用几个容器四处走动呢?然后你就可以去玩Docker了。虽然由于五个实例、四个小时的限制,你无法开始运营你的新创业公司来做安全、人工智能或分析(现在所有新创业公司都在做这些事情),但在你完全投入之前,使用Docker是一个尝试的好地方。因为也许你不想在公共场合暴露自己(这总是一个坏主意),也许你想从GitHub上的开源(MIT许可)存储库安装一个内部版本的Play with Docker,这样你组织中的人就可以四处走动了?原创 2023-12-20 20:57:05 · 470 阅读 · 0 评论 -
【开源软件】最好的开源软件-2023-第13名 Sentry
Sentry提供了一个完整的开源工具生态系统,用于监控应用程序、服务和API的运行状况,原创 2023-12-15 21:26:34 · 406 阅读 · 0 评论 -
【开源软件】最好的开源软件-2023-第15名 Spinnaker
一个开源、多云的持续交付平台,可以帮助devops团队自动化发布并实现canary和其他部署策略原创 2023-12-15 21:20:42 · 419 阅读 · 0 评论 -
【ITIL框架】什么是 ITIL? 您的 IT 基础架构库指南
ITIL 是提供 IT 服务的最佳实践框架。ITIL 对 ITSM 的系统化方法可以帮助企业管理风险、加强客户关系并构建适合增长、规模和变化的 IT 环境。什么是 ITIL?IT 基础架构库 (ITIL) 是一个 IT 服务管理框架,它概述了提供 IT 服务的最佳实践。ITIL 的 IT 服务管理 (ITSM) 系统方法可以帮助企业管理风险、加强客户关系、建立具有成本效益的实践,并构建一个稳定的 ...原创 2022-10-17 21:38:46 · 4147 阅读 · 1 评论 -
【可靠性】建立可靠性文化
可靠性文化如何帮助团队构建更可靠的系统和流程。当我们考虑可靠性时,我们通常会从系统的角度来考虑可靠性。现实情况是,可靠性始于人。通过鼓励站点可靠性工程师 (SRE)、事件响应人员、应用程序开发人员和其他团队成员主动考虑可靠性,我们可以更好地准备识别和修复故障模式。在本节中,我们将解释什么是可靠性文化,如何培养和发展可靠性文化,以及它如何帮助提高我们的流程和系统的可靠性。什么是可靠性文化?可靠性文化...原创 2022-09-16 20:16:15 · 179 阅读 · 0 评论 -
【软件测试】稳定性和可靠性测试在软件开发中的重要性
软件测试的某些方面经常会在那些刚接触流程的人中造成混淆——例如在稳定性和可靠性测试之间划清界限。两者通常可以互换使用,并且有一个共同的目标,即确保系统可以在选定的时间范围内稳定运行。在这篇文章中,我们将仔细研究什么是稳定性测试、可靠性测试的定义、它们的目标以及它们的子集。您会发现为什么错过稳定性和可靠性测试会增加软件维护成本,以及为什么它是业务经理绝对必须的。目录:可靠性测试定义可靠性测试的目的可...原创 2022-09-14 18:31:44 · 1291 阅读 · 0 评论 -
【混沌工程】Chaos Mesh:Kubernetes 的混沌工程平台
Kubernetes 的混沌工程平台。Chaos Mesh 是云原生计算基金会 (CNCF) 托管的项目。它是一个云原生混沌工程平台,可在 Kubernetes 环境中编排混沌。在当前阶段,它具有以下组件:Chaos Operator:混沌编排的核心组件。完全开源。Chaos Dashboard:用于管理、设计、监控混沌实验的 Web UI。请参阅以下演示视频,快速了解 Chaos Mesh:Ch...原创 2022-09-11 20:16:00 · 319 阅读 · 0 评论 -
【混沌工程】什么是混沌工程? 介绍、定义及更多
软件和系统开发是创新和解决未知问题的练习。软件和系统是容易出错的,因为它们是由具有不同观点和技能的人(很可能是多人)制作的。技术变得越来越分散和复杂,尤其是随着微服务的推动。很少有人拥有完整的端到端知识 […]软件和系统开发是创新和解决未知问题的练习。软件和系统是容易出错的,因为它们是由具有不同观点和技能的人(很可能是多人)制作的。技术变得越来越分散和复杂,尤其是随着微服务的推动。很少有人拥有整个...原创 2022-09-07 20:30:55 · 818 阅读 · 0 评论 -
【韧性架构】韧性性工程的重要性
韧性工程的重要性本周 AWS 发生了更大的中断,当然媒体报道再次大肆报道。例如,“亚马逊网络服务中断使企业陷入困境”,华盛顿邮报的标题,仅举一个例子。你可以找到更多的媒体报道。然而,对我来说,有趣的部分并不是 AWS 发生了罕见的中断之一。这是大多数文章的底线:AWS 发生了部分中断,因此使用 AWS 的公司步履蹒跚。换句话说:AWS 是有罪的。这些公司是受害者。个人觉得,没那么简单。实际上,我认...原创 2022-08-31 20:09:00 · 240 阅读 · 0 评论 -
【韧性工程】所有开发人员都应该知道的韧性软件策略
失败是不可避免的。然而,正确的软件设计和开发选择可以帮助最大限度地减少其影响、隔离问题并加快恢复时间。许多架构师努力设计具有避免灾难性故障的能力的应用程序系统。不幸的是,在现实世界中,导致崩溃的错误和过载是不可避免的。为了正确处理此类故障,开发团队必须为自己配备正确的软件弹性实践。在追求设计风格(例如基于微服务的架构)时,这一点尤为重要,在这种架构中,故障可能会蔓延到分布式组件并导致广泛的中断。各...原创 2022-08-29 21:39:42 · 212 阅读 · 0 评论