必备的网络诊断和故障排除必备工具

最新推荐文章于 2024-05-18 10:00:54 发布

李白的朋友高适

最新推荐文章于 2024-05-18 10:00:54 发布

阅读量916

点赞数 10

文章标签： aws 亚马逊云科技科技人工智能 re:Invent 2023 生成式AI 云服务

本文链接：https://blog.csdn.net/weixin_40272094/article/details/134835724

版权

关键字: [Amazon Web Services re:Invent 2023, Amazon VPC, Network Diagnostics, Network Troubleshooting, Network Visualization, Network Monitoring, Network Optimization]

本文字数: 2300, 阅读完需: 12 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1GC4y1R7Bu

导读

理解云网络、混合连接和互联网之间的相互作用，可以让您快速可靠地为客户提供价值。通过更多的设备、分支、区域和各种互连技术，网络连接的诊断、调试和故障排除是需要具备的关键技能。本论坛首先为您提供构建网络的坚实基础，然后逐步完成故障检测和诊断，以及修复故障和防止故障再次发生的解决方案。

演讲精华

以下是小编为您整理的本次演讲的精华，共2000字，阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

在引人入胜的会议开始时，Ruskin Dra 和 Evgeny Wo 以充满感染力的热情欢迎与会者参加 2023 亚马逊云科技re:Invent。作为方案架构师的新西兰人 Ruskin，自原始的 .NET 1.1 时代以来就在 .NET 开发方面拥有丰富的经验。而澳大利亚悉尼的专业领导者 Evgeny，曾在多个年度负责亚马逊云科技的团队网络，并参加过之前的 5-6 场亚马逊云科技 re:Invent。

向前发展，Ruskin 提醒观众，这个200级的会议将主要围绕网络工具和服务展开，从调试、诊断和故障排除的角度来看。他同情地注意到，许多客户认为亚马逊云科技的网络通常被视为一个黑箱，出现问题时，通常需要几天甚至几周的时间来解决网络问题。这个流行的俗语“总是DNS”证明了网络首先受到怀疑。客户还常常想知道在特定故障排除情况下使用哪些工具。

在继续前进之前，Ruskin 提到他们将首先定义问题空间，然后观察和可视化网络，检测潜在问题，进行调试和故障排除，执行根本原因分析，改进网络性能，并最终总结关键经验教训。

在深入探讨之前，Ruskin 描述了一个用于该会议的心理模型，该模型以网络为中心的飞轮。这些步骤包括通过观察充分了解问题，早期发现可能的问题，进行调试以找到根本原因，改进网络布局以提高效率，从而吸引更多的流量和用户。

进一步详细说明, 他解释了亚马逊云科技如何运营庞大的网络, 包括在 24 个地理区域中的 76 个可用区以及一些边缘位置。当跟踪端到端的包时, 会出现许多组件, 如互联网交换局、NAT、防火墙、ACL 等。亚马逊云科技为客户方便将这种复杂的底层网络抽象为 VPC。

Ruskin 强调了多年来运营亚马逊云科技庞大网络的一些关键经验教训——彻底测试所有网络部件和路由器以规避故障风险, 广泛测量性能指标以捕捉异常值, 为可扩展性和故障容忍设计以防止级联故障。

随后，他引入了两位虚构人物——Sarah（应用开发者）和Alex（网络工程师），以使内容更加相关。作为应用开发者的Sarah主要关注工作负载，她需要在不同地区和账户中部署资源，并依赖于网络工程师Alex提供的连接。例如，Sarah在悉尼地区部署了一个工作负载，之后又在非生产账户中进行测试时部署了另一个工作负载。她为自动化设置了持续集成和持续部署（CI/CD）管道，并向Alex请求建立虚拟私有云（VPC）对等连接。随着工作负载越来越受欢迎，Alex建议切换到传输网关以实现更好的可扩展性。

与此同时，作为网络工程师的Alex确保工作负载得到适当支持，并应对动态需求，如新虚拟私有云（VPC）、重叠无类别域间路由（CIDR）和企业办公室在不同地区的连接。例如，Alex处理了团队设置新VPC的请求，解决了重叠CIDR的问题，并通过虚拟专用网络（VPN）和直接连接连接了新的分公司。Ruskin总结了他们面临的一些关键障碍，如有机但混乱的增长、多样化的环境和惯例、隐含的治理和对部落知识的依赖。

在第一个关注领域——观察和网络可视化方面，Ruskin强调了可视化拓扑和属性、广泛且频繁地捕获事件以及通过可操作的仪表板分析数据的重要性。他展示了如何在亚马逊云科技的控制台中可视地识别虚拟私有云（VPC）资源，如何使用亚马逊云科技Network Manager查看全球资源，以及如何设置内部设施和设备。

例如，Alex利用了Cloud WAN的可视化功能来全面查看他的网络，包括俄勒冈州、新加坡、悉尼和奥克兰的虚拟专用网络（VPN）连接。Alex还使用Network Manager中的传输网关可视化来查看跨地区的拓扑，包括虚拟专用网络（VPN）隧道。橙色线表示传输网关连接，而绿色线表示活动的虚拟专用网络（VPN）。如果某个隧道出现问题，Alex会收到一个视觉提示，以便迅速识别问题。

在接下来的内容中，他将详细介绍如何通过各种日志分析网络流量的方法。他会提到诸如捕获每天约1.6万亿个流量记录的元数据的VPC流日志、传输网关流日志、ELB和防火墙日志等工具。他建议在CloudWatch日志、S3或Kinesis中存储这些日志，并使用亚马逊云科技的Analytics服务或QuickSight进行分析。

Ruskin展示了在CloudWatch中创建自动仪表板的能力，以及使用Contributor Insights来了解VPC端点使用情况。通过Contributor Insights，Alex和Sarah可以识别访问私有链接端点的顶级贡献者实例，从而主动排查潜在问题。此外，他还分享了一个客户是如何利用QuickSight和VPC流日志推断公共IPv4访问导致意外跨区域数据传输成本的案例。

他强调的一些关键资源包括用于观察网络的CloudFormation模板，用于构建针对VPC流日志的QuickSight仪表板的研讨会，以及用于理解流量模式的Athena查询库。

在处理潜在问题时，Ruskin强调了在排查问题之前，必须先收到问题的通知。警报可能来自用户投诉、警报或异常检测。可以使用Amazon EventBridge通过各种渠道发送通知。他演示了如何使用基于亚马逊云科技最佳实践的预定义指标和阈值的CloudWatch推荐警报来无缝创建警报。例如，Alex配置了用于监控VPN隧道状态的推荐警报，节省了时间和努力。

在检测互联网相关问题方面，Ruskin介绍了Amazon CloudWatch Internet Monitor。它使用亚马逊云科技在300多个全球边缘位置和传输中心的优势来建立性能基准，并在用户访问应用程序时遇到延迟或可用性问题时发出通知。他解释了它是如何根据指定的应用程序地区进来的流量百分比进行监控的。该服务在控制台中提供了优化建议，以改善延迟，如在其他地区部署或启用CloudFront。

流量优化功能使得亚历克斯和萨拉能够分析地理位置概况并确定添加us-west-1可以降低某些用户的TTFB时间。启用CloudFront还可以在全球范围内将延迟降低到25-30ms。

此外，拉斯金介绍了三种用于识别VPC连接问题服务：VPC可到达性分析器验证源是否可以到达目的地；传输网关路由分析器验证通过传输网关路由表的路线；网络访问分析器检测并在跨账户边界意外网络访问时修复。他简要演示了一些示例分析。

例如，亚历克斯使用可达性分析器确认对等VPC中的实例可以进行通信，并且网络防火墙没有阻止流量。对于出口流量安全，亚历克斯利用网络访问分析器自动检测和报告任何不是通过所需防火墙的互联网访问。

此外，拉斯金指出了如何使用Amazon Connect Wisdom以自然语言提出网络故障排除查询。它解释问题,运行自动化分析,并以文本和视觉格式总结结果。萨拉只需询问应用程序是否允许公共访问，Connect Wisdom就会验证安全组规则。

拉斯金推荐的一些关键资源包括关于设置个人健康仪表板和警报的博客、涵盖各种VPC分析场景的研讨会以及解释互联网监控功能的文档。

在这个阶段，叶夫根尼接手解释了网络调试的复杂性。他提出了一个有效的调试心理模型：将应用程序作为塔的最上层，每层下面代表网络。底层的问题会向上级传递并对上面的所有东西产生影响。TCP/IP模型就是一个包含网络、互联网、传输和应用层的框架。

叶夫根尼通过一个直接连接调试示例展示了网络层的问题。问题可能包括端口上没有指示灯亮起、指示灯指标在-28至-15 dBm的多模光纤范围之外或-34至-22 dBm的单模光纤范围之外、或在ARP表中缺少MAC地址。他引导阅读Direct Connect故障排除文档以获取详细步骤。相关的CloudWatch指标包括检查链路状态的连接状态和指示灯水平。

If, for example, Alex discovers that the light level in CloudWatch exceeds the expected range, he can involve the data center technicians to solve any possible fiber contamination issues. By logging in to the router and checking the ARP table, insights into network connectivity can also be gained. When troubleshooting at the internet layer, Evgeny starts there rather than going down a layer further to obtain faster results. Tools like ping can be used to check the status of the Border Gateway Protocol (BGP). For VPN connections directly connected, comparing the debugging logs on both sides can help identify the failure point.

Assuming the basic connection has been established, the next step is to evaluate if the application can be accessed. Evgeny recommends using tools like hping3, which uses SYN packets to check if the application responds instead of just ICMP. He also mentioned other tools such as Netcat, dig, and nslookup for DNS resolution, iperf for bandwidth measurement, and tcpdump for packet capture. If an ICMP ping fails, Alex can use a TCP-based tool like hping3 or netcat to verify application access. In measuring bandwidth between EC2 instances, Alex uses iperf to support multiple streams to fully utilize the 400Gbps connection.

Evgeny summarizes the layered troubleshooting blueprint, starting with internet layer reachability checks, including Route 53, dashboards, and more. If needed, you can move down to the network layer or up to the application layer for inspections, including security groups, starting packet captures, and more. Additional resources for troubleshooting applications and Amazon Web Services are also provided by Evgeny.

In terms of improving the network, Evgeny reintroduces the CloudWatch internet monitoring features. Traffic optimization functions analyze traffic profiles sent to the application's region and optimize it, such as deploying it in other regions or, in some cases, enabling CloudFront to reduce latency by 50%. Another improvement method is a structured troubleshooting process called Corrective Action and Prevention (COP). It involves steps like summarizing impacts, creating timelines, applying the Five Whys to find root causes, and defining remediation actions. Evgeny also mentioned a presentation explaining how Amazon Web Services strictly follows this process to improve network resilience.

他建议关注亚马逊云科技的新服务，例如在之前的re:Invent上推出的VPC网格（VPC Lattice）。这项服务简化了跨账户连接多达500,000个服务的跨VPC连通性，同时提供身份策略、流量管理和固有的IP重叠处理。

最后，Evgeny强调了新的自定进度的亚马逊云科技网络基础课程，该课程广泛涵盖了所讨论的服务，并提供一个认证考试来验证核心网络技能。

总的来说，主要收获包括：

通过现有的工具、日志、警报和仪表板来观察和可视化网络
利用TCP/IP模型在适当的网络层高效地进行调试
使用工具来提高可见性，而不是把网络视为黑箱
通过故障分析和新服务/功能推动持续改进
优化网络拓扑以实现更好的性能、增加用户和流量

总之，演讲者全面概述了如何战略性地观察、监控和优化亚马逊云科技的云网络。他们强调了首先要通过可视化、日志记录和指标深入了解网络的重要性。这个基础使得能够早期检测到异常并通过分层模型高效地调试根本原因。从失败中学习并保持对新发展的关注推动了持续改进。

下面是一些演讲现场的精彩瞬间：

演讲者热烈欢迎观众参加关于网络诊断和故障排除工具的会议。

尽管会议时间短暂，但他承认与会人数众多。

亚马逊云科技的领导者表示，尽管他们的网络已经克服了许多挑战，但网络仍被视为一个常被误责的黑箱，而且在使用诊断工具时仍然存在不确定性。

演讲者引入了一个飞轮模型，用于通过观察、检测、调试和拓扑优化来理解和改进网络。

亚马逊云科技通过边缘位置、企业数据中心以及通过互联网连接用户和服务的方式实现了这一点。

Sarah已在生产和非生产账户中部署了工作负载，设置了自动化管道，并与Alex一起使用VPC对等和传输网关建立了账户间的安全网络连接。

Netcat是一个轻便实用的工具，可以通过测试跨层连通性来帮助进行网络故障排除。

总结

演讲者首先强调了可视化网络拓扑和流量流的重要性。在亚马逊云科技的控制台中，Resource Map等有用工具可帮助查看VPC组件，而亚马逊云科技的Network Manager则可用来查看跨区域的连接。此外，VPC流日志和CloudWatch仪表板可用于分析流量。

接下来，演讲者讨论了如何通过主动检测潜在问题来优化网络性能。如CloudWatch推荐警报和Internet Monitor之类的工具可以帮助设置警报并监控互联网天气事件。Reachability Analyzer（可达性分析器）、Transit Gateway Route Analyzer（过渡网关路由分析器）和网络访问分析器则可以验证连接和访问。

最后，演讲者概述了用于调试和根本原因分析的方法。通过遵循TCP/IP模型，系统性地检查每一层，并使用ping、traceroute等网络工具来隔离出现问题的地方，可以帮助我们更好地理解网络性能并进行有效的故障排除。同时，仪表板为我们提供了对指标的可见性，从而帮助我们更好地了解网络状况。

总之，通过全面的监控、智能检测和分层调试，我们可以深入了解网络的性能，并迅速解决任何问题。亚马逊云科技提供了许多内置工具来简化这一过程，使网络诊断和故障排除变得更加高效。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134835690

想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处，一键获取亚马逊云科技全球最新产品/服务资讯！

点击此处，一键获取亚马逊云科技中国区最新产品/服务资讯！

即刻注册亚马逊云科技账户，开启云端之旅！

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁？

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者，自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务，涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体，以及应用开发、部署与管理等方面；基础设施遍及 31 个地理区域的 99 个可用区，并计划新建 4 个区域和 12 个可用区。全球数百万客户，从初创公司、中小企业，到大型企业和政府机构都信赖亚马逊云科技，通过亚马逊云科技的服务强化其基础设施，提高敏捷性，降低成本，加快创新，提升竞争力，实现业务成长和成功。

李白的朋友高适

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
必备的网络诊断和故障排除必备工具

演讲者首先强调了可视化网络拓扑和流量流的重要性。在亚马逊云科技的控制台中，Resource Map等有用工具可帮助查看VPC组件，而亚马逊云科技的Network Manager则可用来查看跨区域的连接。此外，VPC流日志和CloudWatch仪表板可用于分析流量。接下来，演讲者讨论了如何通过主动检测潜在问题来优化网络性能。如CloudWatch推荐警报和Internet Monitor之类的工具可以帮助设置警报并监控互联网天气事件。
复制链接

扫一扫