企业小型服务器软硬件维护文档
制作人:唐锦嵩
服务器样式:
1 引言
1.1 文档目的
本文档旨在指导企业小型服务器的硬件和软件维护工作,适用于所有服务器设备和操作系统。
1.2 服务器硬件和软件维护
列出服务器设备清单和操作系统版本,包括型号、配置和序列号等信息。
2 服务器硬件维护
2.1 设备清单
设备 | 型号/规格 | 数量 | 京东指导价 | 总价 | |
---|---|---|---|---|---|
处理器 | Intel Xeon 8358 | 2 | 29999 | 59998 | |
散热器 | 4189 | 2 | 约1400 | ||
主板 | 超微X12DPI-N6 | 1 | 5799 | 5799 | |
内存 | 三星 64G DDR4-R-ECC 3200 | 16 | 1459 | 23344 | |
存储 | 8T P4510 U2 | 5 | 3399 | 16995 | |
存储 | 希捷 2.4T SAS | 3 | 1819 | 5457 | |
扩展卡 | 四口 U2 卡 | 1 | 约480 | ||
扩展卡 | 单口 U2 卡 | 1 | 约98 | ||
图形加速卡 | RTX 6000 48G | 1 | 55999 | 55999 | |
RAID卡 | LSI 9460-16l | 1 | 8500 | 8500 | |
U2线缆 | 5 | ||||
电源 | 台达GPS 850W 带80PLUS | 1 | 799 | 799 | |
服务器机箱 | 4U 加长 | 1 | 约800 | ||
总价:约¥179800 |
2.2 设备规格
2.2.1 CPU
官方文档:https://www.intel.cn/content/www/cn/zh/products/sku/212282/intel-xeon-platinum-8358-processor-48m-cache-2-60-ghz/specifications.html
CPU最新驱动程序和软件:https://www.intel.cn/content/www/cn/zh/products/sku/212282/intel-xeon-platinum-8358-processor-48m-cache-2-60-ghz/downloads.html
产品集 | 第三代英特尔® 至强® 可扩展处理器 |
---|---|
处理器编号 | 8335 |
热功耗(TDP) | 250W |
内核数/线程数 | 32/64 |
基本频率/最大睿频 | 2.60 GHz/ 3.40 GHz |
最大内存大小 | 6 TB |
内存类型 | DDR4-3200 MHz |
最大内存通道数 | 8 |
PCI Express 通道数的最大值 | 64 |
Tcase机箱温度是处理器集成散热片 (IHS) 的最高容许温度。 | 81°C |
---|---|
支持的插槽 | FCLGA4189 |
封装大小 | 77.5mm x 56.5mm |
2.2.2 主板
官方介绍:https://www.supermicro.com/zh_cn/products/motherboard/x12dpi-n6
品牌 | 超微 |
---|---|
型号 | MBD-X12DPi-N6 |
BIOS类型 | AMI UEFI |
支持双路 LGA-4189 (Socket P+),CPU TDP 支持高达 270W TDP | "双路"指的是主板或服务器支持同时安装两个处理器的能力。 每个处理器的热设计功耗(TDP)不超过270W。 |
扩展插槽 | |
---|---|
PCIe 4 个 PCIe 4.0 x16, 2 个 PCIe 4.0 x8 | 这表示系统中有4个PCIe 4.0 x16插槽可用于插入支持PCIe 4.0标准的扩展卡。每个插槽的物理大小为x16,表示每个插槽能提供16个PCIe通道的带宽。 |
M.2 M.2 接口:1 个 PCIe 4.0 x4 外形规格:2280/22110 按键:M 键 | M.2是一种小型扩展插槽接口,用于连接固态硬盘(SSD)和无线网卡等设备。根据您提供的信息,系统具有以下M.2接口配置: M.2接口:系统中有1个M.2接口可用,支持PCIe 4.0 x4标准。这意味着M.2插槽可以提供4个PCIe通道的带宽。 外形规格:M.2插槽的外形规格为2280/22110。这表示M.2插槽支持的长度范围为22毫米和80毫米之间,或者22毫米和110毫米之间,适用于不同长度的M.2设备。 按键:M.2插槽使用M键插孔。按键用于确定M.2插槽的连接方式和协议支持,M键表示支持使用PCIe和SATA接口的设备。 M.2接口的灵活性和小尺寸使其成为现代计算机系统中常用的接口之一。您可以使用M.2插槽连接适配器卡、固态硬盘(SSD)、无线网卡、蓝牙模块等各种M.2设备。 |
2.2.3 储存
intel 英特尔 P4510 数据中心企业级SSD 固态硬盘U.2接口NVMe协议 P4510 8TB U.2 | |
---|---|
顺序读取(最高)/顺序写入(最高) | 2850 MB/s /1100 MB/s |
电源 | 活动10W/闲置5W |
保修 | 5年 |
参考文档:https://zhuanlan.zhihu.com/p/371337577
希捷(Seagate) 银河企业级 2.5英寸 SAS接口 1万转 HDD CMR 服务器 机械硬盘 2.4TB【ST2400MM0129】 | |
---|---|
顺序读取(最高)/顺序写入(最高) | |
电源 | 活动W/闲置W |
保修 | 年 |
2.2.4 扩展卡
PCI-E (X4/X8/X16)转(U2/U3)扩展卡(单口/双口四口) |
---|
2.2.5 电源
2.2.5.1 80 PLUS Efficiency
电源能效认证计划,旨在评估和推广电源的能效。根据80 PLUS认证标准,电源需要满足一定的能效要求,并通过测试和认证才能获得相应的等级。
80 PLUS标准 | 电源在20%、50%和100%负载下的效率要求为80%以上。 |
---|---|
80 PLUS Bronze | 电源在20%、50%和100%负载下的效率要求为82%、85%和82%以上。 |
80 PLUS Silver | 电源在20%、50%和100%负载下的效率要求为85%、88%和85%以上。 |
80 PLUS Gold | 电源在20%、50%和100%负载下的效率要求为87%、90%和87%以上。 |
80 PLUS Platinum | 电源在20%、50%和100%负载下的效率要求为90%、92%和89%以上。 |
80 PLUS Titanium | 电源在20%、50%和100%负载下的效率要求为90%、94%和90%以上。 |
2.2.6 RAID卡
官方文档:http://www.unicaca.com/products/detail/311.html
2.2.7 GPU
显卡型号 | 显存类型 | CUDA核心 | 显存大小 |
---|---|---|---|
RTX6000 Ada | GDDR6 | 18176 | 48 |
2.3 温度和湿度控制(木桶效应)
2.3.1 主板
主板操作环境 | |
---|---|
工作温度范围 | 10°C - 35°C(50°F - 95°F) |
非工作温度范围 | -40°C - 70°C(-40°F - 158°F) |
工作相对湿度范围 | 8% - 90%(非冷凝) |
非工作相对湿度范围 | 5% - 95%(非冷凝) |
2.3.2 储存
intel 英特尔 P4510 数据中心企业级SSD 固态硬盘U.2接口NVMe协议 P4510 8TB U.2 | |
---|---|
工作温度 | 0°C - 70°C |
希捷(Seagate) 银河企业级 2.5英寸 SAS接口 1万转 HDD CMR 服务器 机械硬盘 2.4TB【ST2400MM0129】 | |
---|---|
工作温度 | 5°C - 55°C |
保存温度 | -40°C - 70°C |
2.3.3 RAID卡
LSI MegaRAID 9460-16i | |
---|---|
工作温度 | 0°C - 55°C |
保存温度 | -40°C - 70°C |
2.4 电源管理
2.4.1 概括
- 选择高效的电源:使用高效的电源装置,例如符合能源星级或80 PLUS认证标准的电源。这些电源具有更高的能效,可以降低能源消耗和热量产生。
- 合理规划电源供应:根据设备的功耗和需求,合理规划电源供应的容量。不要过度配备过大的电源,以避免低负载下的能效损失。
- 使用电源管理功能:操作系统和硬件通常提供电源管理功能,例如节能模式、睡眠模式和待机模式。合理利用这些功能可以降低电力消耗。
- 定期检查电源运行状态:定期检查电源的运行状态,确保正常工作和供电稳定。注意观察电源指示灯和异常噪声,及时处理任何异常情况。
- 建立断电保护措施:采取措施防止电源突然断电造成数据丢失或设备损坏。例如使用UPS(不间断电源)或自动备份电源,确保系统能够平稳关机或切换到备用电源。
2.4.2 电源过小的危害
不稳定或系统崩溃 | 电源无法提供足够的电力支持,导致系统不稳定或频繁崩溃。这是因为系统无法从电源中获取足够的电能供应,导致电压下降或电流不稳定。 |
---|---|
过热 | 电源过小可能会导致过度负载,使电源过热。过热可能损坏电源本身,并有可能对其他系统组件产生负面影响。 |
性能下降 | 电源无法提供足够的功率,可能导致系统性能下降。某些硬件设备可能无法正常工作,或者在负载较高时性能受限。 |
不足的扩展能力 | 如果电源功率不足,可能无法支持未来的硬件升级或新增设备的需求。这会限制系统的可扩展性和灵活性。 |
不稳定的电源输出 | 当电源负载过大时,电源输出的电压和电流可能变得不稳定。这可能导致设备故障或数据丢失的风险。 |
2.4.3 服务器设备最大TDP和已安装电源对比
设备 | 型号/规格 | 数量 | 单TDP | 总TDP | |
---|---|---|---|---|---|
处理器 | Intel Xeon 8358 | 2 | 250w | 500w | |
散热器 | 4189 | 2 | 270w·350w | 540w~700w | |
主板 | 超微X12DPI-N6 | 1 | |||
内存 | 三星 64G DDR4-R-ECC 3200 | 16 | |||
存储 | 8T P4510 U2 | 5 | 10w | 50w | |
存储 | 希捷 2.4T SAS | 3 | |||
图形加速卡 | RTX 6000 48G | 1 | 300w | 300w | |
RAID卡 | LSI 9460-16l | 1 | 13.5w | 13.5w |
电源 | 台达GPS 850W 带80PLUS | 1 | 850 | 850 |
---|
2.4.3.1 对比结论
电源太小了,日常可能够用,但不支持高压环境,对服务器损坏有潜在隐患。
2.5 硬件故障处理(保修)
2.6 定期巡检(动态调整)
时间 | 责任人 | 巡检内容 |
---|---|---|
每月第一个周一 | IT管理员 | 检查服务器硬件健康状态,包括电源、风扇、硬盘、内存等。 |
每季度第一个月 | 网络管理员 | 检查网络设备,包括交换机、路由器、防火墙的运行状态和配置。 |
每半年第一个月 | 数据库管理员 | 检查数据库服务器性能,包括查询性能、存储空间和备份情况。 |
每年第一个月 | 安全管理员 | 进行安全审计和漏洞扫描,确保系统的安全性和漏洞修复。 |
每年第一个月 | 存储管理员 | 检查存储设备的容量和性能,进行备份系统测试和数据恢复演练。 |
定期巡检计划应根据实际需求和系统环境进行调整。确保按计划进行巡检,并记录巡检的日期、巡检内容和任何发现的问题或异常。定期巡检有助于发现和解决潜在问题,确保系统的稳定性和安全性。
3 服务器软件维护
3.1 操作系统更新
制定操作系统更新的策略和步骤,包括定期安装安全补丁和软件升级。
记录更新的日期、版本号和更新内容。
3.2 安全设置
配置防火墙规则,限制网络访问。
管理用户权限,分配合适的访问和操作权限。
设定密码策略,包括密码复杂度和定期更换要求。
3.3 权限管理
定义不同用户角色的权限,包括系统管理员、普通用户和访客等。
分配适当的访问权限和操作权限,记录权限变更和授权信息。
3.4 日志管理
配置日志记录级别和内容,确保关键日志信息被记录。
定期备份日志文件,并建立日志审查流程。
3.5 数据备份和恢复
制定数据备份的策略和计划,包括全量备份和增量备份。
定期测试数据备份的可恢复性,并记录测试结果。
提供数据恢复的步骤和流程,包括灾难恢复计划和数据恢复点目标。
3.6 软件故障处理
记录常见的软件故障和故障排除步骤,包括日志分析、重启服务和修复程序等。
4 维护计划和记录
4.1 维护计划
制定定期维护计划,包括巡检、备份、软件更新等维护任务的安排和频率。
记录计划执行的日期、执行人员和执行结果。
维护任务 | 频率 | 负责人员 | 执行日期 |
---|---|---|---|
服务器巡检 | 每月一次 | IT管理员 | 2023-08-01 |
数据备份 | 每周三次 | 数据管理员 | 2023-08-02 |
操作系统更新 | 每季度一次 | IT管理员 | 2023-09-01 |
日志备份 | 每月一次 | IT管理员 | 2023-08-15 |
硬件故障处理 | 按需 | 技术支持 | 2023-07-20 |
4.2 维护记录
记录每次维护的日期、维护内容、维护人员和结果等详细信息。
记录发现的问题、故障和解决方案,以便后续参考。
日期 | 维护内容 | 维护人员 | 结果 |
---|---|---|---|
2023-08-01 | 服务器巡检 | IT管理员 | 完成 |
2023-08-02 | 数据备份 | 数据管理员 | 完成 |
2023-08-15 | 日志备份 | IT管理员 | 完成 |
2023-09-01 | 操作系统更新 | IT管理员 | 未完成 |
2023-09-05 | 硬件故障处理 | 技术支持 | 处理中 |
5 应急响应计划
5.1 灾难恢复计划
定义灾难恢复的步骤和流程,包括数据恢复、系统重建和服务恢复等。
记录灾难恢复的联系人和紧急联系方式。
步骤编号 | 步骤描述 | 负责人员 | 联系方式 |
---|---|---|---|
1 | 停止正常运行的服务和应用程序 | IT管理员 | 123-456-7890 |
2 | 启动备份服务器或替代服务器 | IT管理员 | 123-456-7890 |
3 | 恢复最新的数据备份到备份服务器 | 数据管理员 | 123-456-7890 |
4 | 配置网络和安全设置,确保备份服务器正常运行 | 网络管理员 | 123-456-7890 |
5 | 启动关键服务和应用程序 | IT管理员 | 123-456-7890 |
6 | 进行系统测试,确保备份服务器正常工作 | 测试团队 | 123-456-7890 |
7 | 通知相关人员和用户系统已恢复正常运行 | IT管理员 | 123-456-7890 |
8 | 定期检查备份服务器和数据完整性,更新备份计划和恢复策略 | 数据管理员 | 123-456-7890 |
5.2 事故处理
规定服务器故障和安全事件的应急响应流程,包括通知流程和责任分工。
提供联系人和联系方式,以便及时处理紧急情况。
- 发现事故或故障:
- 监控系统报警或用户报告
- 快速确认并识别问题的性质和范围
- 通知关键人员:
- 确定通知流程和责任人员
- 通知相关人员,包括技术团队、管理层和相关利益相关者
- 评估事故严重性:
- 分析事故对业务和系统的影响程度
- 确定紧急程度和优先级
- 启动事故响应团队:
- 成立事故响应团队,包括技术专家和相关人员
- 分配责任和指定沟通渠道
- 采取应急措施:
- 尽快采取必要的紧急措施以减轻事故影响
- 防止进一步损害系统和数据
- 故障诊断和排除:
- 确定故障原因和范围
- 进行必要的故障排除步骤,如日志分析、系统重启等
- 恢复系统功能:
- 修复故障或恢复受影响的系统功能
- 进行测试以确保系统正常运行
- 事故记录和分析:
- 记录事故细节、采取的措施和恢复时间
- 分析事故原因,提出改进措施以防止类似事故再次发生
- 事故后续工作:
- 通知利益相关者事故已解决并恢复正常运行
- 进行事故回顾和评估,总结经验教训