【机器学习】重走机器学习路——第0.5步

机器学习0.5——前置基础(监督学习,非监督学习)



前言

写在前面

之前学习过很多,但都是止步于理论,没有实践,加上没有经常用到,所以很快都差不多忘记了 ,现在觉得需要捡起来,加上ai可以帮到我薄弱的代码环节,还是基于《统计学习方法》这本书、西瓜书和吴恩达老师的课,可能也会看一下新的成果和论文之类的(可能吧,弱弱的一句)

小白!超级菜鸟!!!有错误欢迎在评论区指正

机器学习很多还是用到概率论,数理统计的知识,如果对理论要求比较高,还是需要这方面掌握一下

这里码一下几句话:
对数据的预测与分析;
提取数据特征,抽象数据模型;
学习什么样的模型,如何学习模型


一、监督学习

这里就不展示概念性的东西了
监督学习就是有参考答案的,并且这个答案是确定的
监督学习一般有分类和回归两种
(经典的例子就是分辨红豆绿豆,给一颗豆子,他是红的还是绿的,他是确定的)——这个是分类的例子,这里分类可以有很多种,但类别个数有限(离散的)

回归的话,就是预测的结果是连续的(这样说可能不太严谨),比如吴恩达老师说的房价预测,给定房子大小来预测价格。这里就假设价格只和房子大小有关系,那这个关系可以是线性的也可以是非线性的,一般来说都会假设是线性的;非线性比较难判断具体是哪种关系,写不出具体表达式

这里非线性一般是基本方法的权重组合或者和神经网络结合等等

线性就比较简单,比如只有一个特征x(输入、函数中的自变量…)

y=ax+b 图源网络

——结合中学的一次函数,只要知道a,b的值,x和y的关系就唯一确定了
给x一个值,就能计算对应的y值是多少,这个值当然是预测值(估计值),我们的目标就是让这个预测值和真实的y值无限接近

——而a和b的值可以根据现在有的数据估计,这个就是参数估计,也就是抽象模型的这个过程。如果这个“关系”要用到很多参数,本质也是一样的,现有数据去估计参数,这又涉及到很多方法

:衡量预测值和真实值的接近程度就可以连接到代价函数(成本函数、损失函数),后面再说

二、非监督学习

非监督学习就是没有参考答案,需要从现有数据中找关系(规律),一般是聚类方法比较多,根据相似性来找同伙(这就涉及到各种距离)


三、泛化

泛化是已经得到的模型在未知数据集上的表现能力,有的时候训练的模型在目前数据集表现的很好,但是同样问题的另一个数据集表现就很差,就是普适性太弱了

好的表现和好的泛化能力其实有点冲突,需要在具体问题中平衡

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值