企业小型服务器软硬件维护指南

企业小型服务器软硬件维护文档



制作人:唐锦嵩
服务器样式:

1 引言

1.1 文档目的

本文档旨在指导企业小型服务器的硬件和软件维护工作,适用于所有服务器设备和操作系统。

1.2 服务器硬件和软件维护

列出服务器设备清单和操作系统版本,包括型号、配置和序列号等信息。

2 服务器硬件维护

2.1 设备清单

设备型号/规格数量京东指导价总价
处理器Intel Xeon 835822999959998
散热器41892约1400
主板超微X12DPI-N6157995799
内存三星 64G DDR4-R-ECC 320016145923344
存储8T P4510 U25339916995
存储希捷 2.4T SAS318195457
扩展卡四口 U2 卡1约480
扩展卡单口 U2 卡1约98
图形加速卡RTX 6000 48G15599955999
RAID卡LSI 9460-16l185008500
U2线缆5
电源台达GPS 850W 带80PLUS1799799
服务器机箱4U 加长1约800
总价:约¥179800

2.2 设备规格

2.2.1 CPU

官方文档:https://www.intel.cn/content/www/cn/zh/products/sku/212282/intel-xeon-platinum-8358-processor-48m-cache-2-60-ghz/specifications.html
CPU最新驱动程序和软件:https://www.intel.cn/content/www/cn/zh/products/sku/212282/intel-xeon-platinum-8358-processor-48m-cache-2-60-ghz/downloads.html

产品集第三代英特尔® 至强® 可扩展处理器
处理器编号8335
热功耗(TDP)250W
内核数/线程数32/64
基本频率/最大睿频2.60 GHz/ 3.40 GHz
最大内存大小6 TB
内存类型DDR4-3200 MHz
最大内存通道数8
PCI Express 通道数的最大值64
Tcase机箱温度是处理器集成散热片 (IHS) 的最高容许温度。81°C
支持的插槽FCLGA4189
封装大小77.5mm x 56.5mm

2.2.2 主板



官方介绍:https://www.supermicro.com/zh_cn/products/motherboard/x12dpi-n6

品牌超微
型号MBD-X12DPi-N6
BIOS类型AMI UEFI
支持双路 LGA-4189 (Socket P+),CPU TDP 支持高达 270W TDP"双路"指的是主板或服务器支持同时安装两个处理器的能力。
每个处理器的热设计功耗(TDP)不超过270W。
扩展插槽
PCIe
4 个 PCIe 4.0 x16,
2 个 PCIe 4.0 x8
这表示系统中有4个PCIe 4.0 x16插槽可用于插入支持PCIe 4.0标准的扩展卡。每个插槽的物理大小为x16,表示每个插槽能提供16个PCIe通道的带宽。
M.2
M.2 接口:1 个 PCIe 4.0 x4
外形规格:2280/22110
按键:M 键
M.2是一种小型扩展插槽接口,用于连接固态硬盘(SSD)和无线网卡等设备。根据您提供的信息,系统具有以下M.2接口配置:

M.2接口:系统中有1个M.2接口可用,支持PCIe 4.0 x4标准。这意味着M.2插槽可以提供4个PCIe通道的带宽。

外形规格:M.2插槽的外形规格为2280/22110。这表示M.2插槽支持的长度范围为22毫米和80毫米之间,或者22毫米和110毫米之间,适用于不同长度的M.2设备。

按键:M.2插槽使用M键插孔。按键用于确定M.2插槽的连接方式和协议支持,M键表示支持使用PCIe和SATA接口的设备。

M.2接口的灵活性和小尺寸使其成为现代计算机系统中常用的接口之一。您可以使用M.2插槽连接适配器卡、固态硬盘(SSD)、无线网卡、蓝牙模块等各种M.2设备。

2.2.3 储存

intel 英特尔 P4510 数据中心企业级SSD 固态硬盘U.2接口NVMe协议 P4510 8TB U.2
顺序读取(最高)/顺序写入(最高)2850 MB/s /1100 MB/s
电源活动10W/闲置5W
保修5年


参考文档:https://zhuanlan.zhihu.com/p/371337577

希捷(Seagate) 银河企业级 2.5英寸 SAS接口 1万转 HDD CMR 服务器 机械硬盘 2.4TB【ST2400MM0129】
顺序读取(最高)/顺序写入(最高)
电源活动W/闲置W
保修


2.2.4 扩展卡

PCI-E (X4/X8/X16)转(U2/U3)扩展卡(单口/双口四口)

2.2.5 电源

2.2.5.1 80 PLUS Efficiency

电源能效认证计划,旨在评估和推广电源的能效。根据80 PLUS认证标准,电源需要满足一定的能效要求,并通过测试和认证才能获得相应的等级。

80 PLUS标准电源在20%、50%和100%负载下的效率要求为80%以上。
80 PLUS Bronze电源在20%、50%和100%负载下的效率要求为82%、85%和82%以上。
80 PLUS Silver电源在20%、50%和100%负载下的效率要求为85%、88%和85%以上。
80 PLUS Gold电源在20%、50%和100%负载下的效率要求为87%、90%和87%以上。
80 PLUS Platinum电源在20%、50%和100%负载下的效率要求为90%、92%和89%以上。
80 PLUS Titanium电源在20%、50%和100%负载下的效率要求为90%、94%和90%以上。

2.2.6 RAID卡

官方文档:http://www.unicaca.com/products/detail/311.html


2.2.7 GPU

显卡型号显存类型CUDA核心显存大小
RTX6000 AdaGDDR61817648


2.3 温度和湿度控制(木桶效应)

2.3.1 主板

主板操作环境
工作温度范围10°C - 35°C(50°F - 95°F)
非工作温度范围-40°C - 70°C(-40°F - 158°F)
工作相对湿度范围8% - 90%(非冷凝)
非工作相对湿度范围5% - 95%(非冷凝)

2.3.2 储存

intel 英特尔 P4510 数据中心企业级SSD 固态硬盘U.2接口NVMe协议 P4510 8TB U.2
工作温度0°C - 70°C
希捷(Seagate) 银河企业级 2.5英寸 SAS接口 1万转 HDD CMR 服务器 机械硬盘 2.4TB【ST2400MM0129】
工作温度5°C - 55°C
保存温度-40°C - 70°C

2.3.3 RAID卡

LSI MegaRAID 9460-16i
工作温度0°C - 55°C
保存温度-40°C - 70°C

2.4 电源管理

2.4.1 概括

  1. 选择高效的电源:使用高效的电源装置,例如符合能源星级或80 PLUS认证标准的电源。这些电源具有更高的能效,可以降低能源消耗和热量产生。
  2. 合理规划电源供应:根据设备的功耗和需求,合理规划电源供应的容量。不要过度配备过大的电源,以避免低负载下的能效损失。
  3. 使用电源管理功能:操作系统和硬件通常提供电源管理功能,例如节能模式、睡眠模式和待机模式。合理利用这些功能可以降低电力消耗。
  4. 定期检查电源运行状态:定期检查电源的运行状态,确保正常工作和供电稳定。注意观察电源指示灯和异常噪声,及时处理任何异常情况。
  5. 建立断电保护措施:采取措施防止电源突然断电造成数据丢失或设备损坏。例如使用UPS(不间断电源)或自动备份电源,确保系统能够平稳关机或切换到备用电源。

2.4.2 电源过小的危害

不稳定或系统崩溃电源无法提供足够的电力支持,导致系统不稳定或频繁崩溃。这是因为系统无法从电源中获取足够的电能供应,导致电压下降或电流不稳定。
过热电源过小可能会导致过度负载,使电源过热。过热可能损坏电源本身,并有可能对其他系统组件产生负面影响。
性能下降电源无法提供足够的功率,可能导致系统性能下降。某些硬件设备可能无法正常工作,或者在负载较高时性能受限。
不足的扩展能力如果电源功率不足,可能无法支持未来的硬件升级或新增设备的需求。这会限制系统的可扩展性和灵活性。
不稳定的电源输出当电源负载过大时,电源输出的电压和电流可能变得不稳定。这可能导致设备故障或数据丢失的风险。

2.4.3 服务器设备最大TDP和已安装电源对比

设备型号/规格数量单TDP总TDP
处理器Intel Xeon 83582250w500w
散热器41892270w·350w540w~700w
主板超微X12DPI-N61
内存三星 64G DDR4-R-ECC 320016
存储8T P4510 U2510w50w
存储希捷 2.4T SAS3
图形加速卡RTX 6000 48G1300w300w
RAID卡LSI 9460-16l113.5w13.5w
电源台达GPS 850W 带80PLUS1850850

2.4.3.1 对比结论

电源太小了,日常可能够用,但不支持高压环境,对服务器损坏有潜在隐患。

2.5 硬件故障处理(保修)

2.6 定期巡检(动态调整)

时间责任人巡检内容
每月第一个周一IT管理员检查服务器硬件健康状态,包括电源、风扇、硬盘、内存等。
每季度第一个月网络管理员检查网络设备,包括交换机、路由器、防火墙的运行状态和配置。
每半年第一个月数据库管理员检查数据库服务器性能,包括查询性能、存储空间和备份情况。
每年第一个月安全管理员进行安全审计和漏洞扫描,确保系统的安全性和漏洞修复。
每年第一个月存储管理员检查存储设备的容量和性能,进行备份系统测试和数据恢复演练。

定期巡检计划应根据实际需求和系统环境进行调整。确保按计划进行巡检,并记录巡检的日期、巡检内容和任何发现的问题或异常。定期巡检有助于发现和解决潜在问题,确保系统的稳定性和安全性。

3 服务器软件维护

3.1 操作系统更新

制定操作系统更新的策略和步骤,包括定期安装安全补丁和软件升级。
记录更新的日期、版本号和更新内容。

3.2 安全设置

配置防火墙规则,限制网络访问。
管理用户权限,分配合适的访问和操作权限。
设定密码策略,包括密码复杂度和定期更换要求。

3.3 权限管理

定义不同用户角色的权限,包括系统管理员、普通用户和访客等。
分配适当的访问权限和操作权限,记录权限变更和授权信息。

3.4 日志管理

配置日志记录级别和内容,确保关键日志信息被记录。
定期备份日志文件,并建立日志审查流程。

3.5 数据备份和恢复

制定数据备份的策略和计划,包括全量备份和增量备份。
定期测试数据备份的可恢复性,并记录测试结果。
提供数据恢复的步骤和流程,包括灾难恢复计划和数据恢复点目标。

3.6 软件故障处理

记录常见的软件故障和故障排除步骤,包括日志分析、重启服务和修复程序等。

4 维护计划和记录

4.1 维护计划

制定定期维护计划,包括巡检、备份、软件更新等维护任务的安排和频率。
记录计划执行的日期、执行人员和执行结果。

维护任务频率负责人员执行日期
服务器巡检每月一次IT管理员2023-08-01
数据备份每周三次数据管理员2023-08-02
操作系统更新每季度一次IT管理员2023-09-01
日志备份每月一次IT管理员2023-08-15
硬件故障处理按需技术支持2023-07-20

4.2 维护记录

记录每次维护的日期、维护内容、维护人员和结果等详细信息。
记录发现的问题、故障和解决方案,以便后续参考。

日期维护内容维护人员结果
2023-08-01服务器巡检IT管理员完成
2023-08-02数据备份数据管理员完成
2023-08-15日志备份IT管理员完成
2023-09-01操作系统更新IT管理员未完成
2023-09-05硬件故障处理技术支持处理中

5 应急响应计划

5.1 灾难恢复计划

定义灾难恢复的步骤和流程,包括数据恢复、系统重建和服务恢复等。
记录灾难恢复的联系人和紧急联系方式。

步骤编号步骤描述负责人员联系方式
1停止正常运行的服务和应用程序IT管理员123-456-7890
2启动备份服务器或替代服务器IT管理员123-456-7890
3恢复最新的数据备份到备份服务器数据管理员123-456-7890
4配置网络和安全设置,确保备份服务器正常运行网络管理员123-456-7890
5启动关键服务和应用程序IT管理员123-456-7890
6进行系统测试,确保备份服务器正常工作测试团队123-456-7890
7通知相关人员和用户系统已恢复正常运行IT管理员123-456-7890
8定期检查备份服务器和数据完整性,更新备份计划和恢复策略数据管理员123-456-7890

5.2 事故处理

规定服务器故障和安全事件的应急响应流程,包括通知流程和责任分工。
提供联系人和联系方式,以便及时处理紧急情况。

  1. 发现事故或故障:
    • 监控系统报警或用户报告
    • 快速确认并识别问题的性质和范围
  2. 通知关键人员:
    • 确定通知流程和责任人员
    • 通知相关人员,包括技术团队、管理层和相关利益相关者
  3. 评估事故严重性:
    • 分析事故对业务和系统的影响程度
    • 确定紧急程度和优先级
  4. 启动事故响应团队:
    • 成立事故响应团队,包括技术专家和相关人员
    • 分配责任和指定沟通渠道
  5. 采取应急措施:
    • 尽快采取必要的紧急措施以减轻事故影响
    • 防止进一步损害系统和数据
  6. 故障诊断和排除:
    • 确定故障原因和范围
    • 进行必要的故障排除步骤,如日志分析、系统重启等
  7. 恢复系统功能:
    • 修复故障或恢复受影响的系统功能
    • 进行测试以确保系统正常运行
  8. 事故记录和分析:
    • 记录事故细节、采取的措施和恢复时间
    • 分析事故原因,提出改进措施以防止类似事故再次发生
  9. 事故后续工作:
    • 通知利益相关者事故已解决并恢复正常运行
    • 进行事故回顾和评估,总结经验教训
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

唐锦嵩

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值