IDC Stability Environment

JohnWongIT

已于 2024-06-16 17:26:48 修改

阅读量699

点赞数 27

文章标签：服务器运维

于 2024-04-09 18:03:46 首次发布

本文链接：https://blog.csdn.net/m0_55100398/article/details/137543842

版权

机械基础知识

流体力学/电力学/热力学

流体力学

功能：优化空气流动和散热，控制设备的温度

流体力学：CFD进行空气流模拟，分析服务器机架在数据中心的气流模式，设计最优化的冷却路径

调整空调送风口的位置或改变机架布局，来降低热点区域的温度，提高整个数据中心的能效比

基本概念：流速（流体通过横截面速度）；压力（流体对单位面积的正向力）

湍流（流体无序、复杂，高速度、低粘度）层流（平稳、有序，低流速、高粘度）

公式：伯努利方程 - 非粘性流体的能量守恒共识

计算流速和压力分布

实验：CFD模拟，设计了一个小型风洞实验来测试不同形状的散热器对气流的影响（散热）

电力学

功能：电源设计、配电、备份电源解决方案

电力学：设计一个高效的不间断电源（UPS）系统，确定持续运行

配电单元（PDU）的使用，它们负责将电力从UPS分配到各个服务器

基本概念：电压（电势差）；电流（电荷量）

阻抗（电流的阻碍作用）；功率分配（电能的分配P=VI）

公式：V=IR，考虑服务器电阻来计算所需的电流，确保电压

实验：设计并构建了一个电源供应电路，该电路包括电阻、电容和二极管，用于模拟电源分配系统

热力学

研究能量转换和热量传递

基本概念：熵（无序程度）；焓（总热含量的状态函数）

热交换（多个物体热能传递）；

热力学第一定律（在一个孤立系统中，能量既不能被创造也不能被消灭，只能从一种形式转换到另一种形式）

热力学第二定律（在自然过程中，熵总是趋向增加）

公式：U=Q-W，U-内能，Q-热量，W-外部做功，计算冷却系统能量损失

实验：不同冷却方法对物体温度的影响，使用水冷和风冷，记录了不同操作条件下物体的温度变化

IDC Team

IDC team is response for server request, which is based on tickets (request).

Like reset servers, change the power cord, change network cable, and change some SFP modules. Ensure connectivity.

Specifically,

managing the IT infrastructure and services within the data center to ensure reliable operation

hardware facility maintenance (infrastructure), network architecture optimization, data storage and processing, as well as server deployment and management

负责数据中心内IT基础架构和服务的管理（可靠地运行），包括服务器、存储系统和网络设备

服务器（数据处理能力）；存储系统（保存数据）；网络设备（传输数据）

硬件设施维护（基础设施）、网络架构优化、数据存储和处理、服务器部署和管理

准备内容：

数据中心架构、服务器硬件和操作系统、网络协议和设备、虚拟化技术、备份和恢复策略

监控工具和软件、IT服务管理

数据中心架构

电力系统、冷却系统、防火系统、安全监控系统

电力系统：不间断电源UPS（提供临时电力，断电进行切换）；备用发电机（电力中断时使用）

电源分配单元PUD（管理和分配电力到服务器和设备）

冷却系统：精密空调（温度和湿度）；液体冷却系统（效率高于空气冷却）；

热管道/冷管道布局（优化空气流动）

防火系统：气体灭火系统（保护设备）；烟雾探测和报警

安全监控：门禁和摄像头；环境监控（空气湿度）

服务器、存储设备、网络设备

服务器（处理数据）：机架式服务器（标准尺寸）

CPU（服务器执行任务）；内存（数据处理速度）；存储（数据存储）；

网络接口（连接网络，进行通信）

存储设备（存储所有数据）：

直接连接存储DAS（直接连接服务器，HDD和SSD）

网络附加存储NAS（通过网络提供文件级存储）

存储区域网络SAN（块级存储服务）

网络设备（传输数据）

交换机（数据中心内的设备进行数据交换）；路由器（不同网络间通信）；

防火墙（控制进出网络数据，防止未授权访问）；

负载均衡器（分散网络流量，减少任一服务器负担）

入侵检测系统IDS（监控网络流量，识别可疑报警）；

入侵防御系统IPS（自动采取阻止和缓解攻击）

高可用性（冗余）、拓展性、恢复能力

高可用性（冗余）：双电源、热拔插（不关闭电源，添加或移除设备）

RAID磁盘阵列（数据分布多个硬盘）

故障转移（切换备份系统）、负载均衡（分流到多个服务器）

集群技术（多个服务器工作，其他服务器可以接管）

拓展性（需求增长添加资源）：垂直扩展（添加资源如cpu、内存）

水平扩展（增加处理单元，如服务器）、弹性扩展（根据负载来调整）

恢复能力：备份（本地和远程）

网络协议和设备

TCP/IP/DNS/HTTP/FTP/SSH

计算机网络中通信遵守的规则

TCP是传输层的协议，提供稳定、面向连接的字节流通信

通过三次握手和四次挥手来连接、断开

通过端口来区分应用

包括重传机制、流量控制、拥堵控制来传输数据

IP是网络层的协议

通过子网掩码来解析IP地址，获取网络号和主机号

通过源IP地址和目标IP地址来传输数据

通过路由来进行寻址的功能

DNS是域名解析协议，应用层

把域名解析成对应的IP地址

本地域名服务器-->根域名服务器-->顶级域服务器-->权威域服务器，获取相应IP

HTTP是超文本传输协议，应用层

与web服务器进行网页信息交互，端口为80

HTTPS是安全版的超文本传输协议，应用层

HTTP的安全版本，传输层加上了SSL/TLS加密，加强数据安全，端口443

FTP是文件传输协议

两台计算机之间的文件传输

SSH是远程操作协议

加密的会话层，登录远程系统进行命令执行、文件传输

网络安全

防火墙/入侵检测/入侵防御

保护网络和网络可访问资源免受未经授权的访问的实践

防火墙FireWall
根据预定的规则监控和控制进出网络的数据包

作用：

数据包过滤：检查网络的数据包，并根据源和目标IP地址、端口号、协议等信息决定是否允许数据包通过

状态监控：跟踪网络连接的状态，基于连接状态决定数据包是否合法

应用层过滤：应用层面检查数据包内容，阻止特定类型的应用流量

配置：

规则设置：配置规则来定义哪些类型的流量可以进入网络，哪些应该被阻止

安全策略更新：定期更新安全策略，以应对新的安全威胁

日志记录：记录通过和被阻止的流量的日志，便于事后分析

入侵检测系统IDS
一种监控网络或系统活动并分析这些活动以寻找可能的恶意行为或政策违规行为的设备或软件应用

作用：

流量分析：监控网络流量，以识别可疑行为或未授权访问的迹象

traffic analysis; suspicious behavior

报警：当检测到潜在的安全威胁时，IDS会发出警报

日志记录：记录检测到的所有事件，为进一步的分析和审计提供数据

类型：

网络入侵检测系统NIDS：监控整个网络的流量

主机入侵检测系统HIDS：安装在特定主机上，监控该主机的入站和出站流量及系统日志

入侵防御系统IPS
不仅能检测入侵，还能自动采取措施阻止或缓解攻击

作用：

攻击阻断：自动阻止检测到的攻击行为

attack blocking; block detected attack

流量控制：对可疑流量实施限速或重定向，减少攻击影响

修补管理：自动应用规则或签名更新来响应新的威胁

patch management; signature update

配置：

策略定制：根据网络环境和安全需求定制防御策略

签名更新：定期更新攻击特征签名，以识别和阻止最新的安全威胁

敏感度调整：调整系统的敏感度，以平衡误报和漏报的风险

监控系统/故障处理（实际case分析；CPU/内存泄漏）

监控系统：实时收集数据中心的运行数据，包括服务器性能、网络流量、存储使用情况、环境参数（如温度、湿度）等

工具：Zabbix、Prometheus

CPU 负载、内存使用率、磁盘空间及网络流量

故障处理：故障检测、快速响应、问题诊断、解决问题和后续分析

Case（故障分析）

使用Prometheus监控公司的web服务集群，某一天，你收到Prometheus发出的告警，提示一台Web服务器的响应时间突然增长，超过了正常值的阈值

1. 初步分析：通过告警信息，查看哪台服务器出问题，以及异常指标（响应时间延长）

2. 问题诊断：登录到异常服务器，通过查看系统日志、Web服务器日志、以及资源使用情况（CPU、内存、磁盘IO等）来诊断问题；假设CPU使用率过高

3. 定位问题：通过top命令进一步定位到是一个名为example-app的应用进程占用了大量CPU资源

4. 采取行动：决定重启example-app应用，并观察CPU使用率和Web服务器响应时间是否恢复正常

5. 根源分析：分析example-app的日志和最近的代码变更，确定导致CPU使用率飙升的根本原因是一个无限循环的bug

6. 修复和预防：修复了代码中的无限循环问题，增加了更细致的监控指标来提前发现类似问题；增加了自动化的性能测试来避免类似问题再次发生

7. 记录和反馈：将此次故障处理过程和学到的教训记录在知识库中，和团队成员分享，以提高未来处理类似问题的效率

根源分析/修复 CASE1：某个进程的CPU使用过高

性能分析工具：gprof

1. 编译程序进行性能分析，加上-pg开启性能分析

gcc -pg -o example example.c

2. 运行程序，会生成对应的gmon.out分析数据文件

./example

3. 使用gprof进行性能分析

生成一个名为 analysis.txt 的文本文件，其中包含了性能分析报告

gprof example gmon.out > analysis.txt

flat profile 和 call graph两个部分

flat profile是每个函数所消耗的时间

call graph是函数之间的调用关系及时间开销

性能分析工具：Valgrind

1. 运行程序

valgrind --tool=callgrind ./example-app

生成一份名为 callgrind.out.<pid> 的报告，其中 <pid> 是程序运行时的进程 ID

2. 使用Kcachegrid进行图像界面分析

查看哪个函数占用了最多的执行指令；查看函数之间的调用关系

根源分析/修复 CASE2：发生内存泄漏，内存不够

内存检查工具：Memcheck

1. 编译程序带-g进行编译

gcc -g -o example-app example-app.c

2. 运行Memcheck工具

开启内存泄漏检查--leak-check；显示内存泄漏--show-leak-kinds；跟踪未初始化值--track-origins

valgrind --leak-check=full --show-leak-kinds=all --track-origins=yes ./example-app

3. 在终端输出详细信息，进行泄漏排查

显示存在泄漏的内存块，源代码文件和行号信息

阿里云产品和行业

产品：弹性计算、数据库服务、存储解决方案

弹性计算ECS：动态选择CPU、内存以及存储资源，来应对业务负载变化

应对短期高负载需求（电商活动）

数据库服务：托管型数据库服务，它简化了数据库的设置、运营和扩展工作

读写需求增加，提供读写分离（游戏存储玩家数据）

储存解决方案：对象存储服务OSS，提供了数据处理能力和访问控制，确保数据安全且易于管理

存储和分发大量数据（视频平台中视频文件）

行业趋势：混合云、边缘计算、人工智能学习

混合云和多云管理：不同的云平台资源进行管理

私有云本地处理敏感信息；公有云处理客户关系管理（金融公司）

边缘计算：处理海量数据，提供更快的响应时间和降低带宽成本

传感器等数据实时处理和检测（智能制造业）

人工智能：机器学习平台 PAI构建、训练和部署机器学习模型

训练模型、部署模型（AI公司）

待解决：

物理服务器和虚拟服务器

高带宽和低延迟

软件定义网络SDN

JohnWongIT

关注

27
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
IDC Stability Environment

IDC Team负责数据中心内IT基础架构和服务的管理（可靠地运行），包括服务器（数据处理能力）；存储系统（保存数据）；网络设备（传输数据）准备内容：数据中心架构、服务器硬件和操作系统、网络协议和设备、虚拟化技术、备份和恢复策略监控工具和软件、IT服务管理。
复制链接

扫一扫