模型的“参数”与“超参数”

目录

前言

一、“参数”与“超参数”

二、模型训练与最终模型

三、参考文献


前言

        起初由于团队项目临时需要,花了个一两天的时间直接仓促上手Machine Learning。最近回顾机器学习的模型评估与选择方面的内容时,才幡然发现在初识机器学习阶段对于个别知识点的理解存在偏差,故特别记录下自身对于模型训练过程中的几个不正确的认识。


一、“参数”与“超参数”

  • 通常所述的模型调参,是指算法的“超参数”,可以理解为模型的“外部参数”;

        周志华老师在机器学习一书中对于“超参数”的定义是:“超参数”是指算法的参数,数目通常在10以内。比如决策树模型中的最大深度、结点划分的最小样本数等,通过人工设定这类参数的具体数值即产生模型。

  • 模型参数,是指在模型训练中通过训练样本获得的最优参数,可理解为模型的“内部参数”;

        而“模型参数”,数目可能很多,例如大型“深度学习”模型甚至有上百亿个参数,其通过学习来产生多个候选模型。比如神经网络的连接权值。

二、模型训练与最终模型

        起初在大量的Copy&Paste中,误以为模型样本上产生的模型就是最终模型,今天回顾周志华老师的机器学习时发现事实并不如此。模型训练本质上是在训练样本上产生模型,但训练样本规模并无法与真实的数据样本规模一致,从而可能会存在一定的估计偏差。因此,在完成一轮模型训练后在已经确定模型超参数的情况下,应该在原始数据集上再完成一轮训练才得到最终模型。

三、参考文献

        周志华,机器学习,北京:清华大学出版社,2016.

  • 9
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Transformer模型是一种用于自然语言处理任务的强大模型,它引入了自注意力机制来捕捉输入序列中的上下文信息。下面是Transformer模型的一些常见超参数: 1. 编码器和解码器层数(num_layers):指定Transformer模型中编码器和解码器的层数。通常情况下,更深的层数可以提供更好的建模能力,但也会增加计算成本。 2. 注意力头数(num_heads):指定自注意力机制中的注意力头数。注意力头数越多,模型可以并行处理更多的信息,但也会增加计算成本。 3. 隐藏层维度(hidden_size):指定编码器和解码器中隐藏层的维度大小。较大的隐藏层维度可以提供更强的建模能力,但也会增加模型的复杂度和计算成本。 4. 前馈神经网络维度(feed_forward_size):指定编码器和解码器中前馈神经网络隐藏层的维度大小。较大的前馈神经网络维度可以提供更强的非线性建模能力。 5. Dropout概率(dropout_rate):指定在训练过程中随机丢弃神经元的概率。通过使用Dropout可以减少过拟合现象。 6. 学习率(learning_rate):指定模型在训练过程中的学习率大小。学习率决定了模型参数更新的步长,过大或过小的学习率都可能导致训练不稳定。 7. 批量大小(batch_size):指定每次训练时输入的样本数量。较大的批量大小可以提高训练效率,但也会增加内存消耗。 8. 最大序列长度(max_sequence_length):指定输入序列的最大长度。超过最大序列长度的部分将被截断或者进行填充。 这些超参数的选择通常需要根据具体任务和数据集进行调整和优化。同时,还有其他一些超参数可以进一步调整,如学习率衰减策略、正则化参数等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Felier.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值