机器学习——序言

序言

  • 从大一下学期开始接触机器学习,最初是看吴恩达的课程开始的,现在又配合周志华的“西瓜书”一起学习。到下笔的这一刻应该是我接触机器学习整一个月了,一个月以来由于平时上课和学校各种事情比较繁杂,导致学习效率不高。据目前看来应该在五月中旬可以闲下来,然后高效率地开始学习。

个人理解

  • 机器学习是是什么?
    • 计算机系统中,“经验”通常以“数据”的形式储存。因此机器学习所研究的主要内容是关于在计算机上从数据中产生的模型算法,即学习算法,有了学习算法,我们再把”经验数据“提供给它,这样就能基于算法产生模型,然后在遇到新情况时根据我们已经训练好的模型进行测试,找到最符合的模型,并在判断要使用哪种模型后,该模型会给我们提供相应的结果。
  • 基本术语
    • 数据集:训练模型首先要有数据,其中每条数据时关于一个事件或一个对象的描述,它们的集合即称为”数据集“。
    • 学习或训练:从数据中学得模型得过程称为学习或训练。这个过程通过执行某些学习算法来实现。
    • 预测:学过高中数学的同学都知道,高中有通过最小二乘法拟合一元线性回归模型的问题,然后用拟合出的线性方程预测一个结果。比如:通过对2010至2018年北京房间的价格按年份的变化情况我们拟合出一个线性方程,然后通过这条直线来对2019年的房价进行预测(当然这个方程不一定是线性的,在这里我只是举个简单的例子),这就是我们高中学过的一元线性回归方程的问题。而现在到了机器学习中其概念和目的其实也相差无几,只不过求解的方法更加高效,要计算的数据量也更大。
    • 分类:刚刚我们谈到回归方程,无疑它是连续的,现在我要谈的是离散的,即我们要预测的值是一个一个分散的。此时,这类学习问题我们称为”逻辑回归“,其实它是一个分类问题。为什么叫作回归呢?是因为在计算其中的假设函数时用到了回归,这个我以后再谈。那么再说分类,当一个为”正类“一个为”负类“时,称它为”二分类,当设计多个类别时,我们称之为”多分类“,实际上我们再求解多分类问题时,其本质也是求二分类问题,就是从其中分出一个单独的类,再将剩余的归为一个大类,然后依次进行上述操作,最后即可解决”多分类“问题,其具体细节我以后再谈。
    • 测试:学得模型后,使用数据对其进行预测的过程称为”测试“,被预测的样本被称为测试样本。
    • 聚类:将训练集中的数据分成若干组,每组称为一个”簇“,这些自动形成的“簇”可能对应一些潜在的该奶奶划分。这样的学习有助于我们了解数据内在的规律,能更深入地分析数据。需说明,在聚类学习中我们的数据是没有标记信息的。
    • 监督学习和无监督学习:我们根据训练数据是否拥有标记信息将学习任务大致分为两类,即监督学习和无监督学习,分类和回归是前者的代表,聚类是后者的代表。
  • 假设空间
    • 我们可以把机器学习的过程看作是在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。举个例子:在求解多元线性回归模型时我们给出了假设函数,即假设空间(h(x)=ax1+bx2+cx3+d),在训练过程中,我们要通过学习算法,比如梯度下降法,通过迭代不断地使我们的模型与数据吻合地更好。在这里,我们最终求解得到地多元线性回归模型即为从假设空间中得到的特解也就是学到的结果。
  • 总结
    • OK,讲到这里,基本的概念就讲完了,由于我也是初学,接触时间不长,若其中有错误,请在评论区中指出。如果还要了解跟多的细节,可以参考周志华《机器学习》这本书。下一篇文章我将来谈我们的第一个机器学习模型”线性回归模型“。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值