a12312312451243-CSDN博客

为什么不能做：因为Decoder的自回归依赖于Masked-Multi-Head-Attention机制，而encoder-only类模型不再对下文进行掩码从而能够更好地捕捉到文本中的复杂语义和上下文信息，提高相关任务的准确性。在QA、文本分类等一些词元上的任务的时候，双向的信息可以帮助提升模型的性能。）是针对BERT模型在处理长文本时的局限性提出的改进模型，主要通过对自注意力机制的优化来降低计算复杂度，从而高效处理长序列。不能做的任务有：机器翻译、文本续写、文本摘要、对话等依赖自回归生成的任务。

2025-03-14 17:43:36 555

原创 Decoder-only类模型

现今的LLM大多源自于Decoder-only类模型，模型大致框架基本上没有发生变化。也沿用了Transformer的掩码注意力机制，因此是自回归类型的模型后续的很多LLM只在一些训练方法、训练数据以及拟合人的喜好上做了改进。

2025-03-14 08:37:07 277

原创各类型决策树

首先对categorical features做一些统计，计算某个类别特征（category）出现的频率，之后加上超参数，生成新的数值型特征（numerical features）。通过提高前一轮被弱分类器错误分类的样本的权重，同时降低分类正确的样本的权重，来动态调整样本权重。如果以是否有喉结来判断男和女的性别问题，那么大概率会得到接近于(1男，0女)的概率，此时基尼系数为0 表明分类效果好于使用眼睛作为判断标准。顺序地训练每一颗树，根据损失来给予不同的权重，后续的训练加重对错误的样本的拟合。

2025-03-11 10:37:52 445