作者:禅与计算机程序设计艺术
1.简介
“Hands-On Machine Learning”一书作者Geron教授( )和他的团队在近年推出了新版机器学习教材,该书全面、系统地阐述了机器学习的各个领域。在作者看来,现有的机器学习教材不仅难以给初学者提供足够的实践经验,而且还存在严重的偏差。为了解决这个问题,该书试图通过教授者对机器学习的实际应用问题的理解,将机器学习知识和技能从浅层次到深层次地呈现出来。作者认为,真正掌握机器学习并非易事,需要结合实际应用场景和方法论,才能真正解决复杂的问题。本文将以该书中最著名的Scikit-learn库及TensorFlow框架为例,带读者领略机器学习在实际工程中的各种应用场景和解决方案。
2.基本概念术语说明
本章节将会介绍一些机器学习相关的术语和概念,包括数据集、特征、模型、训练样本、测试样本等。阅读完本节内容后,读者可以快速了解机器学习的基础概念。
2.1 数据集 Data Set
数据集(Data set),又称为样本或样本集(Sample set)、训练集(Training set)或者是测试集(Test set)。顾名思义,数据集就是用来训练或测试模型的数据。它是由若干个元素