【机器学习】算法术语、决策函数、概率模型、神经网络的详细讲解(图文解释)

一、机器学习算法术语

1)数据集(Data Set),训练集(Training Set),验证集(Validation Set)和测试集(Test Set)

 

数据集分为训练数据和测试数据。测试数据集合即为测试集,是需要应用模型进行预测的那部分数据,是机器学习所有工作的最终服务对象。为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集,训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。

2)实例(instance),属性(Attribute),特征(Feature),特征值(Feature Value)和特征向量(Feature vector)

实例是一个完整的训练或测试数据,如一张图片、一段文本句子、一条音频等。实例有一般多个属性,因此用多维的向量来表示它,并用粗体的小写字母来标记,如x_i,下标i表示实例的序号。

传统机器学习算法一般不直接对实例的属性进行处理,而是对从属性中提炼出来的特征进行处理。实例通常是由多个特征值组成的特征向量来表示。用特征向量来表示实例时,也用x_i表示。用带括号的上标来区分实例的不同特征,如x_i^(j)表示第i个实例的第j维特征。有m个特征的第i个实例可表示为x_i={x_i^(1),x_i^(2),…,x_i^(m)}。

3)标签(Label)和样本(Sample)

在监督学习中,训练数据不仅包括实例,还包括事先标记好的标签。在分类、聚类和标注模型中,标签是离散编号值,在回归模型中,标签是连续值。对训练数据来说,标签是指导训练的结论,对测试集来说,标签是要预测的目标。

在分类、聚类和回归任务中,标签值一般是一维的标量,一般用y_i表示。在标注任务中,标签值是一个序列,可看成是向量,一般用粗体y_i表示。测试集中的数据只包括实例,标签是需要预测的,在分类、聚类和回归任务中用y ̂_i来表示待预测的标签值,在标注任务中用粗体y ̂_i来表示待预测的标签序列。

样本是一份可用来训练的完整数据。在监督学习中,样本由实例及其标签组成,

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

showswoller

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值