一、前言
人工智能(AI)已经成为我们生活中不可或缺的一部分,从推荐你喜欢的电影,到chatGTP对话,AI的应用无处不在。然而,对于刚刚接触AI的朋友来说,有些术语可能有些抽象。今天,我们就来拆解几个关键的概念:特征、过拟合、欠拟合、离散数据、连续数据。
在阅读本文之前,建议读者先对算法和AI基本概念有一些基本的了解。这将有助于更好地理解本文内容。您可以参考笔者以下文章:
- AI入门指南(一):什么是人工智能、机器学习、神经网络、深度学习?
- AI入门指南(二):算法、训练、模型、大模型是什么?
二、什么是特征?
概念
特征(Feature),也称为属性或变量,是描述数据的一个关键元素。在机器学习中,特征是模型用来进行预测或分类的输入信息。每个特征提供了数据的不同方面,帮助算法理解数��的结构和模式,从而做出更准确的预测。
实际应用
让我们通过一个银行客户经理的贷款审批例子来更好地理解特征的实际应用。假设你是一名A银行的客户经理,你记录了以下贷款申请的数据:
姓名 | 拥有工作 | 拥有房产 | 信誉 | 贷款结果 |
张三 | 否 | 否 | 一般 | 拒绝 |
李四 | 否 | 否 | 一般 | 拒绝 |
王五 | 是 | 否 | 好 | 批准 |
赵六 | 是 | 是 | 好 | 批准 |
钱七 | 否 | 是 | 一般 | 批准 |
孙八 | 否 | 否 | 一般 | 拒绝 |
周九 | 是 | 否 | 好 | 批准 |
吴十 | 是 | 是 | 好 | 批准 |
在上述数据中,“拥有工作”、“拥有房产”和“信誉”就是特征。这些特征用于描述每个贷款申请人的基本信息和信用状况,从而帮助模型做出贷款批准或拒绝的决策。
三、离散数据(特征)和连续数据(特征)是什么?
在机器学习中,离散数据和连续数据是两种基本的数据类型,它们的特性决定了如何处理和分析数据。
这些数据类型也可以被称为离散特征和连续特征,这两种称呼是可以互换的。
离散数据(或特征)
概念
离散数据是指可以精确计数且没有中间值的数据。通常,这些数据是整数,代表可以被分离的个体或项。离散数据只能取有限个或可数的不同值,而无法在这些值之间有中间��态。
示例
- 人数:班级中的学生人数可以是20人、21人,但不能是20.5人。
- 硬币的数量:袋子中的硬币数目可能是10枚、11枚,但不可能是10.5枚。
- 考试题数:试卷上的题目数可以是50题、51题,但不可能是50.5题。
实际应用
在贷款申请的数据中,“拥有工作”、拥有房产和信誉这些特征都是离散数据,因为它们只能取固定的、有限的值。例如,“拥有工作”只能是“是”或“否”,没有中间状态。
连续数据(或特征)
概念
连续数据是指可以在一个范围内取任意数值的数据。这类数据可以有无限多个可能值,通常用于表示可以测量的量度,而��仅仅是计数。
示例
- 身高:一个人的身高可以是170.5厘米、170.55厘米,甚至更精确到170.555厘米。
- 体重:体重可以是65.2千克、65.25千克,甚至65.256千克,具有无限的精度。
- 时间:时间可以被精确到小时、分钟、秒,甚至毫秒和微秒。
实际应用
在上述贷款申请的数据中,假设我们新增了一个**“收入”**特征,数据如下:
姓名 | 拥有工作 | 拥有房产 | 信誉 | 收入 | 贷款结果 |
张三 | 否 | 否 | 一般 | 12.2w | 拒绝 |
李四 | 否 | 否 | 一般 | 13.2w | 拒绝 |
王五 | 是 | 否 | 好 | 14.25w | 批准 |
赵六 | 是 | 是 | 好 | 13.89w | 批准 |
钱七 | 否 | 是 | 一般 | 22.2w | 批准 |
孙八 | 否 | 否 | 一般 | 32.3w | 拒绝 |
周九 | 是 | 否 | 好 | 69.2w | 批准 |
吴十 | 是 | 是 | 好 | 5.6w | 批准 |
在这里,**“收入”**是一个连续数据特征,因为它可以取任意数值并具有无限的精度,如12.2w、13.25w等。
通过理解离散数据和连续数据的不同,我们可以选择适当的处理方法和分析技术,以便更准确地进行数据分析和建模。
四、欠拟合、过拟合是什么?
欠拟合(Underfitting)
概念
欠拟合是指模型过于简单,无法捕捉数据中的重要模式,导致训练数据和测试数据上的表现都不佳。欠拟合通常发生在模型过于简单,无法充分学习数据中的复杂关系。
示例
假设你只学了简单的数学加减法,但却要解决复杂的微积分问题。你用加减法去解决复杂的微积分问题时,显然不能得到正确答案。这就是欠拟合。
实际应用
我们仍以上述贷款申请的数据为例,数据如下:
姓名 | 拥有工作 | 拥有房产 | 信誉 | 收入 | 贷款结果 |
张三 | 否 | 否 | 一般 | 12.2w | 拒绝 |
李四 | 否 | 否 | 一般 | 13.2w | 拒绝 |
王五 | 是 | 否 | 好 | 14.25w | 批准 |
赵六 | 是 | 是 | 好 | 13.89w | 批准 |
钱七 | 否 | 是 | 一般 | 22.2w | 批准 |
孙八 | 否 | 否 | 一般 | 32.3w | 拒绝 |
周九 | 是 | 否 | 好 | 69.2w | 批准 |
吴十 | 是 | 是 | 好 | 5.6w | 批准 |
我们根据算法得到了一个非常简单的决策树模型,只考虑拥有工作这一个特征,模型如下:
显而易见这个模型过于简单以至于不符合实际场景,因为它没有考虑到其他特征的影响,也不能很好地泛化到新的数据上。这就是欠拟合的典型例子。
过拟合(Overfitting)
概念
过拟合是指模型过于复杂,以至于不仅学习了数据中的实际规律,还捕捉了数据中的噪声和细节。这使得模型在训练数据上表现极其优秀,但在新的、未见过的数据上却表现不佳。简单来说,过拟合的模型对训练数据“记得太清楚”,但对新数据的泛化能力差。
示例
想象你准备考试时只是在死记硬背所有的例题答案。如果考试的题目与例题完全相同,你可能会考得很好。但如果考试题目稍有变化,你就可能会感到无从应对。这种情况就像是模型过拟合:它在训练数据上表现优异,但在实际应用中却无法应对变化。
实际应用
以贷款申请的数据为例:
姓名 | 拥有工作 | 拥有房产 | 信誉 | 收入(包含副业) | 贷款结果 |
张三 | 否 | 否 | 一般 | 12.2w | 拒绝 |
李四 | 否 | 否 | 一般 | 13.2w | 拒绝 |
王五 | 是 | 否 | 好 | 14.25w | 批准 |
赵六 | 是 | 是 | 好 | 13.89w | 批准 |
钱七 | 否 | 是 | 一般 | 22.2w | 批准 |
孙八 | 否 | 否 | 一般 | 32.3w | 批准 |
周九 | 是 | 否 | 好 | 69.2w | 批准 |
吴十 | 是 | 是 | 好 | 5.6w | 批准 |
郑十一 | 否 | 否 | 一般 | 15.6w | 拒绝 |
假设我们构建了一个非常复杂的决策树模型,它使用了所有特征(“拥有工作”、“拥有房产”、“信誉”、“收入”)并且细化到每个数据点,尤其是**“收入”**特征,包含了很多分支和叶子节点。模型可能会看起来像这样:
这个复杂的模型在训练数据上表现完美,能够准确地预测每个案例的贷款结果。然而,当我们遇到一个新的用户,例如一位没有工作、没有房产、信誉一般但收入(包含副业)在40w的用户时,该模型可能会错误地将其贷款申请拒绝。这是因为模型过于依赖训练数据中的细节和噪声,导致在面对新数据时的预测能力不足,这就是典型的过拟合问题。
五、总结
在本篇博客中,我们深入探讨了人工智能领域中的一些核心概念,包括特征、离散数据、连续数据、以及过拟合与欠拟合。通过对这些概念的详细解释和实际应用示例,希望帮助读者更好地理解模型的构建和评估。
- 特征是模型用来进行预测或分类的输入数据,每个特征提供了一部分信息,帮助模型理解数据的结构和模式。在实际应用中,特征的选择和处理对模型的性能至关重要。
- 离散数据(或离散特征)指的是可以被精确计数的数据,如人数或硬币的数量。
- 连续数据(或连续特征)则指在一定范围内可以取任意数值的数据,如身高或收入。这些数据类型的区分帮助我们选择合适的数据处理方法。
- 过拟合和欠拟合是模型训练中的两种常见问题。过拟合指模型过于复杂,学习了训练数据中的噪声,导致在新数据上的表现不佳;欠拟合则指模型过于简单,无法捕捉数据中的重要模式。了解和识别这些问题是提高模型泛化能力的关键。
通过以上的介绍,希望读者能够对机器学习中的基本概念有更清晰的认识,并能够在实际应用中有效地选择和调整模型,以提高预测性能。
六、参考资料
- AI入门指南(一):什么是人工智能、机器学习、神经网络、深度学习?
- AI入门指南(二):算法、训练、模型、大模型是什么?
- 决策树算法介绍 - Wikipedia
- 机器学习中的训练和测试数据 - Machine Learning Mastery