机器学习入门科普篇--系列二
上一篇我们说了机器学习的特点、定义,其中讲了经验、任务和性能。任务上篇已经讲过了,现在我们来聊聊经验和性能。
经验
监督学习
对于监督学习问题,我们所拥有的经验包括特征和标签(Label/Target)两个部分。通常用特征向量(Feature Vector)描述一个数据样本。标记/目标的表现形式则取决于监督学习的种类。
无监督学习
无监督学习问题没有标记/目标,因此也无法从事预测任务,却更加适合对数据结构的分析。正是这个区别,我们可以获得大量的无监督学习数据;而监督数据的标注因为经常耗费大量的时间、金钱和人力,所以数据量相对量较少。
性能
注意
需要保证,出现在测试集中的数据样本一定不能被用于模型训练。即,训练集和测试集之间是彼此互斥的
预测类问题
对于预测类问题,更加关注预测的精度。具体来讲:分类问题,需要根据预测正确类别的百分比来评价其性能,这个指标通常称为准确性(Accuracy);回归问题则无法使用类似的指标,通常会衡量预测值与实际值之间的偏差大小。
好了,机器学习的任务、经验和性能已经介绍完了,下面用一个示例描述一下;
例子 手写识别学习问题:
任务T:识别和分类图像中的手写文字
性能标准P:分类的正确率
训练经验E:已知分类的手写文字数据库(知识库)
今日赠言
离你越近的地方,路途越远;最简单的音调,需要最艰苦的练习。
——致还在路上的你
推荐阅读:
(视频讲解!!!)python量化 | 10年翻400倍的炒股策略
长按二维码即可关注哦--->
参考文献:
Python机器学习及实践
机器学习
Mitchell,T.M 《Machine Learning》