机器学习基本概念

数据

以下面的图,来分析机器学习数据的一些概念:

萼片长度萼片宽度花瓣长度花瓣宽度种类
5.83.51.50.6se(0)
7.23.51.60.5ve(1)
3.12.51.60.2vi(2)
  • 数据集:上面这个整体的数据就叫数据集(data set)
  • 样本:每一行的数据称为样本(sample)
  • 特征:除最后一列,每一列表达样本的一个特征(feature)
  • 标记:最后一列,称为标记
  • 数学表达:第i个样本行写作 X ( i ) X^{(i)} X(i),第i个样本第j个特征值 X j ( i ) X^{(i)}_ {j} Xj(i),第i个样本的标记写作 y ( i ) y^{(i)} y(i) (种类是y,除了种类之外的都是x)
  • 特征向量: X ( 1 ) X^{(1)} X(1)= { 5.8 3.5 1.5 0.6 } \left\{\begin{matrix} 5.8 \\ 3.5 \\ 1.5 \\ 0.6 \end{matrix} \right\} 5.83.51.50.6
  • 样本表示: { ( X ( 1 ) ) T ( X ( 2 ) ) T ( X ( 3 ) ) T ( X ( 4 ) ) T } \left\{\begin{matrix} (X^{(1)})^T \\ (X^{(2)})^T \\ (X^{(3)})^T \\ (X^{(4)})^T \end{matrix} \right\} (X(1))T(X(2))T(X(3))T(X(4))T
    下面是另外一个图
    在这里插入图片描述
    整个图表示特征空间,分类任务的本质就是在这个特征空间里面找一条直线划分。这里是二维空间,在高维空间里面也同理。
    再举个栗子,如下图。对于下面的图像,每一个像素点都是特征。25乘以25的图像25*25=625个特征。下图的图像是黑白的,对于彩色的图像,特征更多。
    在这里插入图片描述

机器学习任务

分类任务

二分类

  • 判断邮件是否垃圾邮件
  • 判断发放给客户信用卡是否有风险
  • 判断疾病患者是良性肿瘤还是恶性肿瘤
  • 判断某只股票涨跌

多分类

  • 一些算法只支持完成二分类任务
  • 当是多分类的任务可以转换成二分类的任务
  • 有一些算法泰瑞可以完成多分类
  • 通过一定的方法,二分类算法可以解决多分类问题

回归任务

回归任务的结果是一个连续的数字,而不是一个类别,例如房屋价格、市场分析、学生成绩、股票价格等

  • 有一些算法只能解决回归问题
  • 有一些算法只能解决分类问题
  • 有一些算法技能解决回归问题,又能解决分类问题
  • 一些情况下,回归任务可以简化成分类任务

什么是机器学习

机器学习过程

Created with Raphaël 2.2.0 输入大量机器学习资料 机器学习算法 (将样例输入到模型里)模型(f(x)) 输出结果

机器学习方法分类

监督学习

监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。例如:

  • 图像已经拥有了标定信息
  • 银行已经积累了一定的额客户信息和他们信用卡的信用情况
  • 医院已经积累了一定的病人信息和他们最终确诊是否患病的情况
  • 市场积累了房屋的基本信息和最终成交的金额
    监督学习的算法有如下一些:k近邻、线性回归和多项式回归、逻辑回归、SVM、决策树和随机森林

非监督学习

非监督学习,给机器的训练数据没有任何“标记”或者“答案”。它可以用来对没有标记的数据进行分类或者聚类分析,或者对数据进行降维处理(特征提取、特征压缩如PCA )

半监督学习

半监督学习是指一部分数据有“标记”或者“答案”,另一部分数据没有的机器学习过程。它更多的用于处理由于各种原因产生标记缺失的情形。这种情况下,我们通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测。

增强学习

根据周围环境的情况,采取行动,根据采取行动的结果,学习行动的方式。
在这里插入图片描述
无人驾驶、智能机器人这种都属于增强学习。之前我们讲的监督学习和半监督学习是增强学习的基础。

其它分类

在线学习和批量学习(离线学习)
  • 批量学习 (Batch Learning)
    批量学习的优点是简单,缺点是不能适应环境变化,需要定时重新批量学习。但是每次重新批量学习,运算量很大。在某些环境变化非常快的情况下,重新批量学习变得不可能。
  • 在线学习(Online Learning)
    在线学习的优点就是批量学习的缺点,能够及时反映新的环境变化。但是同时又会带来新的问题,新的数据可能会带来不好的变化,需要加强对新的数据进行监控。它适用于数据量巨大,完全无法批量学习的情况。
参数学习和非参数学习
  • 参数学习 Parametric Learning
    一旦学习到了参数,就不在需要原有的数据集。它的定义:假设可以最大程度地简化学习过程,与此同时也限制可以学习到是什么,这种算法简化成一个已知的函数形式,即通过固定数目的参数来拟合数据的算法。
    Logistic Regression、DA(线性判别分析)、朴素贝叶斯和简单神经网络都属于参数学习
  • 非参数学习 Nonparametric Learning
    非参数学习不对模型进行过多的假设,但是非参数学习不等于没有参数。定义:不对目标函数的形式作出强烈假设的算法称为非参数机器学习算法,通过不做假设,它们可以从训练数据中自由地学习任何函数形式,即参数数量会随着训练样本数量的增长的算法。 
    KNN、决策树(比如CART和C4.5)、SVM等都是非参数学习算法。

其他

在机器学习领域,有很算法,具体到某个问题,有的算法可能会更好。但是由于数据集和评判标准的不同,还有各种各样别的因素,我们不能认定一种算法绝对比另外一种算法好。因为脱离实际问题去谈算法的好坏,是没有意义的,所以在我们面对一个具体问题的时候,尝试用多种算法进行对比试验,是很有必要的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值