基于AI、大数据的互联网应用推动了互联网数据中心产品、技术的快速升级。
首先,接入带宽从传统的10Gbps升级到25Gbps/100Gbps,需要基础网络提供高转发能力保障业务的高可用。
其次,基于RDMA(Remote Direct Memory Access,远程直接内存访问)无损以太网技术的普遍应用,实现了计算节点到存储节点的微秒级时延,大大优化端到端的业务转发性能,而这也意味着对网络运维提出了更高的挑战——如何在大规模、复杂的HPC(High Performance Computing)网络中实现更加精细的流量可视、可控?如何面向业务实现端到端的秒级故障定位,并为网络的持续优化提供精准的数据支撑?
锐捷网络认为,通过基于交换机硬件芯片的Network Telemetry技术方案(INT+gRPC),可以实现整网的流量可视化,为实现真正的可视化运维提供新的思路。查找了相关资料整了下,以下是锐捷专家的精彩解读。
网络运维新挑战
为了保证业务的高可靠,基于Scale out方式实现的分布式计算和存储应用(Hadoop/ Map reduce/HDFS)得到了大规模使用,不仅摆脱了单服务器的计算、存储性能的限制,同时可提供更灵活的扩展性,能够快速响应业务需求变化,提高系统的可靠性、可用性和存取效率。
然而业务本身在网络中分布是不可控的,因此在实际网络流量模型中不可避免会出现多对一的通信模式,即 Incast模型。下图即典型的Incast通信模型: