书籍-《基于PyTorch的现代计算机视觉（第二版）》-CSDN博客

书籍-《基于PyTorch的现代计算机视觉（第二版）》_人工智能

编辑：陈萍萍的公主@一点人工一点智能

书籍：Modern Computer Vision with PyTorch: A practical roadmap from deep learning fundamentals to advanced applications and Generative AI，2nd ed. Edition

作者：V Kishore Ayyadevara，Yeshwanth Reddy

出版：Packt Publishing

01 书籍介绍

无论你是初学者，还是希望在计算机视觉领域取得进步的从业者，本书都将引导你深入了解神经网络（NN）和PyTorch的基础知识，并教会你如何为现实世界任务实现最先进的架构。

《基于PyTorch的现代计算机视觉》第二版已全面更新，解释了最新的多模态模型、CLIP和Stable Diffusion，并提供了实际案例。

你将探索处理图像、调整超参数以及将模型投入生产的最佳实践。随着学习的深入，你将实现面部关键点识别、多目标检测、分割和人体姿态检测等各种用例。本书为你探索不同的生成对抗网络（GAN）架构提供了坚实的图像生成基础。你将利用基于Transformer的架构，如ViT、TrOCR、BLIP2和LayoutLM，执行各种现实世界任务，并从零开始构建扩散模型。此外，你还将利用基础模型的能力执行零样本目标检测和图像分割。最后，你将学习将模型部署到生产的最佳实践。

读完这本深度学习书籍后，你将能够自信地利用现代神经网络架构来解决现实世界的计算机视觉问题。

你将学到什么：

· 掌握各种基于Transformer的计算机视觉架构，如CLIP、Segment-Anything和Stable Diffusion，并测试它们的应用，如图像修复和姿态迁移。

· 结合计算机视觉与自然语言处理，执行光学字符识别（OCR）、从文档图像中提取键值、视觉问答和生成式AI任务。

· 实现多目标检测和分割。

· 利用基础模型在没有任何训练数据点的情况下执行目标检测和分割。

· 学习将模型迁移到生产的最佳实践。

本书适合谁读：

本书适合PyTorch初学者和中级机器学习从业者，他们希望学习使用深度学习和PyTorch的计算机视觉技术。对于刚开始接触神经网络的人来说，本书非常有用，因为它将使读者能够通过GitHub上的笔记本学习现实世界的用例。要开始阅读本书，你只需要具备Python编程语言和机器学习的基础知识。对于更有经验的计算机视觉科学家来说，本书的后半部分将带你了解更高级的模型。

02 作者简介

Kishore Ayyadevara是一位企业家和实干型领导者，他在技术、数据和人工智能的交汇处工作，致力于发现和解决商业问题。基肖尔拥有超过十年的领导经验，他曾在美国运通公司、亚马逊以及一家顶级医疗保险公司创立并发展了成功的应用数据科学团队。在目前的职位上，他正在创建一家初创公司，专注于使医疗保健机构更易获得人工智能技术的支持。在工作之余，基肖尔还通过其五本关于机器学习/人工智能的书籍分享了他的知识，他拥有12项专利，并曾在多个人工智能会议上担任演讲者。

Yeshwanth Reddy是一位成就卓越的数据科学家经理，拥有9年以上的深度学习和文档分析经验。他为该领域做出了重大贡献，包括开发端到端文档数字化软件，从而实现了大幅的成本节约。叶什万特的专业领域涵盖光学字符识别（OCR）、词汇检测和合成文档生成模块的开发。他的开创性工作已获得了多项专利的认可。他还创建了一些Python库。叶什万特热衷于颠覆无监督和自监督学习领域，致力于减少对人工标注的依赖，并在数据科学领域推动创新解决方案。