SVM通常被认为是“黑匣子”。在本文中,我们将介绍可视化学习的SVM模型及其在真实世界数据上的性能的技术。
本文包含以下部分:
- 线性模型,SVM和内核简介
- 利用SVM内核解释高维特征空间......
- 评估高维分类边界性能
- 处理大量不平衡数据
- 训练SVM需要多少数据
线性模型,SVM和内核简介
在机器学习中,任何模型在模型输入和预测输出之间进行映射的时候都会使用线性分类器。
线性模型相对于神经网络(非线性模型)的主要优点是特征权重直接对应于模型中特征的重要性。因此,很容易理解模型“学到了什么”。
任何线性模型的核心是输入示例和参数/权重向量之间的点积。在线性回归的情况下,这是整个假设函数。其中逻辑回归通过sigmoid函数馈送点积,使得输出在0和1之间,因此适用于二元分类问题。
在考虑分类问题时,线性模型的最终决策边界是直线,平面或超平面,系数等于模型权重/参数,因此只能对可线性分离的数据进行分类,这可能是一个很大的限制。处理更复杂的分析问题。
支持向量机(SVM)是唯一可以对不可线性分离的数据进行分类的线性模型。
您可能会问作为线性模型的SVM如何使线性分类器适合非线性数据。直观地使用简单的线性回归模型,我们可以手动设计x&#x