机器学习系列2:机器学习小知识

这几天学习机器学习内容,发现以前的数学知识差不多都忘记了,赶紧补习下。

参考内容https://www.cnblogs.com/babers/p/6746379.html

向量和矩阵,这是机器学习中非常常用的概念。

我们面对的具体业务场景,比如判断信用卡申请人是否符合发卡条件,申请人的各种信息可以理解为向量,比如年龄、比如工作单位、比如月收入等等。多个申请人的各种数据就可以组成一个矩阵。

通过大量的历史数据,我们可以发现某些字段(向量)和申请人今后使用信用卡的风险有很大关系。所以符合一定特征的申请人,我们可以拒绝发卡。

现在使用机器学习方式,我们把历史数据用机器学习算法构建成模型,再通过大量的数据来测试和调优模型,这样就行了一个信用卡申请的模型。以后新来一个申请人,我们把他的信息输入到模型中,根据模型的结果来决定是否发卡,这样就做到了信用卡的发卡自动化处理。同样道理,申请贷款也是可以的。目前互联网金融中的在线放贷,就是采用类似的模型实现的。

本文略过数据采集、数据预处理等内容,直接讨论我们使用机器学习算法进行建模。

就如刚刚所说,我们可以采集到申请人的各种数据(强制申请人提交),但是通过历史经验,我们会发现,有些数据对于信用卡持卡人是否会发生风险没有特别大的意义。也就是说这样的向量对于结果的影响很小,小到可以忽略。所以为了简化模型以及提交模型效率,我们只留下对于模型影响较大的向量。这样做的目的:降低复杂度、降低噪音、增加模型可读性。对应的就是特征选择和降维。参考内容https://www.jianshu.com/p/516f009c0875

接下来,我们来讨论下 分类、聚类、回归、降维问题。

参考内容:https://blog.csdn.net/u011630575/article/details/78637517

给定一个样本特征 , 我们希望预测其对应的属性值 , 如果  是离散的, 那么这就是一个分类问题,反之,如果  是连续的实数, 这就是一个回归问题

如果给定一组样本特征 , 我们没有对应的属性值 , 而是想发掘这组样本在  维空间的分布, 比如分析哪些样本靠的更近,哪些样本之间离得很远, 这就是属于聚类问题。

如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题

应用于我们刚刚说的信用卡申请或者贷款申请问题,这就是一个分类问题。通过分析申请人的各个属性(离散值),对于结果给出一个预测。

所以下一步,我们将具体在python中通过demo使用一些分类算法。

 

转载于:https://my.oschina.net/hoticeses/blog/1832697

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值