0 写在前面
机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理;“广”在分析多个机器学习模型:决策树、支持向量机、贝叶斯与马尔科夫决策、强化学习等。强基计划实现从理论到实践的全面覆盖,由本人亲自从底层编写、测试与文章配套的各个经典算法,不依赖于现有库,可以大大加深对算法的理解。
1 数据集是什么?
在上一篇文章中机器学习强基计划0-2:什么是机器学习?和AI有什么关系?我们提到机器学习是致力于研究如何通过计算的手段,利用经验产生模型以改善系统自身性能的学科。本节从这句话出发,衍生概念。
在机器学习的定义中,计算手段称为学习算法(learning algorithm),从数据产生模型的过程称为学习(learning)或训练(training)。
很自然地,要实现学习算法,必须依赖于数据。这些数据的集合称为