主旨
这篇从可视化的角度形象说明神经网络到底如何提升分类正确率,不会涉及数学推导和模型原理,目的在于帮助读者建立神经网络对数据处理的形象化概念。
备注
这篇最初发表于我的知乎专栏:程序员深度学习笔记,结合知乎发表后到现在这两天的思考,在原文基础上有删改,并加入了更多的插图。
这篇文章的数据和程序涉及到我目前进行的工作,因此无法提供参考代码和数据。
问题背景
N个64维向量,其标签分为两类,记为类别1和类别2,类别1以红色表示,类别2以蓝色表示。
使用PCA技术,将64维向量的3个最强主成分抽取出来,绘图得到如下结果
从中可以看出两点特征,
- 除了一个维度的坐标范围是[4,8.5],其余两个维度坐标范围都在1e-15及以下,说明原始数据的主成分集中在一维,分类难度大
- 红色和蓝色混杂分布,不易区分
其中第一点可以进一步图形化说明,将PCA降维之后强度最强的一个维度的分布画出来,如下所示。这里为了避免红