书籍-《使用Python进行机器学习中的数据标注》_机器学习

编辑:陈萍萍的公主@一点人工一点智能

书籍:Data Labeling in Machine Learning with Python: Explore modern ways to prepare labeled data for training and fine-tuning ML and generative AI models

作者:Vijaya Kumar Suda

出版:Packt Publishing

01 书籍介绍

数据标注是引导人工智能和机器学习力量的无形之手。在当今数据驱动的世界中,掌握数据标注不仅是优势,更是必要之举。使用Python的机器学习中的数据标注让您能够从原始数据中挖掘价值,创建智能系统,并影响技术发展的进程。

通过这本书,您将发现运用汇总统计、弱监督、程序化规则和启发式方法来程序化地为未标记的训练数据分配标签的艺术。随着您的进步,您将能够通过掌握半监督学习和数据增强的复杂性来增强您的数据集。进一步探索数据领域,您将沉浸在图像、视频和音频数据的标注中,利用seaborn、matplotlib、cv2、librosa、openai和langchain等Python库的力量。通过手把手的指导和实际示例,您将熟练掌握有效标注各种数据类型的方法。

到本书结束时,您将具备程序化标注各种数据类型并增强数据集的实践经验,从而充分发挥您数据的全部潜力。

您将学习到的内容:

· 精通表格、文本、音频、视频和图像数据的探索性数据分析(EDA)

· 了解如何使用Python库将规则应用于原始数据的标注

· 发现用于添加分类标签的数据增强技术

· 利用K-means聚类对无监督数据进行分类

· 探索如何将混合监督学习应用于添加分类标签

· 掌握使用生成式AI进行文本数据分类

· 使用OpenCV和YOLO检测对象并分类图像

· 发现一系列数据标注技术和资源

本书面向的读者:

本书适合机器学习工程师、数据科学家和数据工程师,他们希望学习用于模型训练的数据标注方法和算法。数据爱好者和Python开发者也将能够通过本书学习使用Python库进行数据探索和标注。具备基本的Python知识将有助于入门,但不是必需的。

02 作者简介

Vijaya Kumar Suda是一位经验丰富的数据和AI专业人士,拥有超过二十年的全球客户合作经验。他曾在瑞士、比利时、墨西哥、巴林、印度、加拿大和美国等多个不同地点居住和工作,成功协助了来自各个行业的客户。目前,Vijaya 在微软担任高级数据和AI顾问,他利用尖端云技术和AI能力,在指导行业合作伙伴进行数字化转型方面发挥了重要作用。他的专业领域包括架构、数据工程、机器学习、生成式AI和云解决方案。

03 书籍大纲

书籍-《使用Python进行机器学习中的数据标注》_机器学习_02