机器学习系列2：机器学习小知识-CSDN博客

这几天学习机器学习内容，发现以前的数学知识差不多都忘记了，赶紧补习下。

参考内容https://www.cnblogs.com/babers/p/6746379.html

向量和矩阵，这是机器学习中非常常用的概念。

我们面对的具体业务场景，比如判断信用卡申请人是否符合发卡条件，申请人的各种信息可以理解为向量，比如年龄、比如工作单位、比如月收入等等。多个申请人的各种数据就可以组成一个矩阵。

通过大量的历史数据，我们可以发现某些字段（向量）和申请人今后使用信用卡的风险有很大关系。所以符合一定特征的申请人，我们可以拒绝发卡。

现在使用机器学习方式，我们把历史数据用机器学习算法构建成模型，再通过大量的数据来测试和调优模型，这样就行了一个信用卡申请的模型。以后新来一个申请人，我们把他的信息输入到模型中，根据模型的结果来决定是否发卡，这样就做到了信用卡的发卡自动化处理。同样道理，申请贷款也是可以的。目前互联网金融中的在线放贷，就是采用类似的模型实现的。

本文略过数据采集、数据预处理等内容，直接讨论我们使用机器学习算法进行建模。

就如刚刚所说，我们可以采集到申请人的各种数据（强制申请人提交），但是通过历史经验，我们会发现，有些数据对于信用卡持卡人是否会发生风险没有特别大的意义。也就是说这样的向量对于结果的影响很小，小到可以忽略。所以为了简化模型以及提交模型效率，我们只留下对于模型影响较大的向量。这样做的目的：降低复杂度、降低噪音、增加模型可读性。对应的就是特征选择和降维。参考内容https://www.jianshu.com/p/516f009c0875

接下来，我们来讨论下分类、聚类、回归、降维问题。

参考内容：https://blog.csdn.net/u011630575/article/details/78637517

给定一个样本特征 , 我们希望预测其对应的属性值 , 如果 是离散的, 那么这就是一个分类问题，反之，如果 是连续的实数, 这就是一个回归问题。

如果给定一组样本特征 , 我们没有对应的属性值 , 而是想发掘这组样本在 维空间的分布, 比如分析哪些样本靠的更近，哪些样本之间离得很远, 这就是属于聚类问题。

如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题。