卑微小亮°-CSDN博客

原创项目实训-个人工作总结

本次项目对于法律文书中总结提取总结部分的模型训练，我采用的是完全基于代码的训练方式，这种方式相较于现在的一些交互式建模调参的过程，可能代码实现更为复杂，为了实现对应的LoRA我们要实现的代码在复用继承之上也更加的繁琐。

2024-06-24 05:37:44 688

原创项目实训11-命令行测试

进行两个总结测试，测试该模型的总结能力还算可以，结果较为正确。

2024-06-23 23:50:22 1067

编写 rm 训练的脚本ds_rm.sh，和上述的模板以及sft相应的模板内容，编写类似的sft过程的调用脚本，利用奖励机制对文本的生成内容进行一定的优化。执行该sh脚本，并对原模型进行训练调参，更具之前所写的代码：使用的和整体结构来看，我们可以推测奖励策略的一些关键特点。这种类型的训练通常用于比较任务，其中模型需要评估一对样本，并决定哪个更好。这种训练通常应用于奖励模型（reward models），这类模型用来指导或调整其他模型的行为。类，继承自。

2024-06-23 22:54:21 1083

原创项目实训5-训练相关工具实现（后补）

这个函数是数据预处理流程的关键部分，它不仅处理数据的加载和验证，还进行格式标准化和整合，确保不同来源和格式的数据能被模型有效处理。通过细致的错误检查和灵活的数据处理策略，该函数支持复杂的数据操作，使得最终的数据集能够满足具体的训练或评估需求。函数是一个高度复杂且功能丰富的数据预处理工具，它通过灵活的参数和详尽的内部逻辑来适应多种数据处理需求。这使得它在准备数据以适应不同机器学习训练阶段时变得非常有效和可靠。

2024-06-23 19:10:33 674

原创项目实训9-sft训练

考虑到该大模型已经进行过预训练，因此我们在本次模型训练中直接从sft过程开始。基于上文中的模型训练框架，首先编写ds_sft.sh的脚本来保证训练。设置在记录日志log文件中每进行十步进行一次简单记录，并且将所有的模型参数在1000次进行一个简单的保存，其余简单参数如上述我们构建的代码所示，初始学习率调整为1e-3，训练轮次调整为15次，数据集选择我们之前处理好的的数据集jugment。jugment内的内容大致如下：部分敏感的内容已经被用xxxx处理随后我们部署在服务器上执行ds_sft。

2024-06-19 00:13:44 731

原创项目实训8-模型下载和训练脚本编写

编写Python脚本下载模型：使用库提供的接口来下载并保存模型。

2024-06-17 16:06:34 289

原创山东大学软件学院2023-2024二学期机器学习基础考试题回忆版

1 尽可能详细阐述多层感知机的结构，结合反向传播算法阐述多层感知机如何修改权重。2 阐述梯度下降的主要过程？1 非参数估计比着有参数估计的优点？阐述两个非参数估计的基本思想。2 在深度学习中 padding和 pooling 的作用。2 从最小化结构风险的角度阐述为什么要最大化margin。3 写出引入拉格朗日乘子后svm的对偶形式的推导。4 阐述决策树的基本思想，说明ID3的实现过程。有什么减少过拟合的方法？3 为什么神经网络有如此强的学习能力。1 用w和b表示svm的初始式子。

2024-06-13 02:25:27 306

原创项目实训7-SFM、RM、PPO部分的实现

在训练阶段，通常希望忽略填充值的损失计算，因为填充值并不代表有效的训练数据。在奖励模型的训练中，成对损失用于比较两个候选文本的好坏，并根据比较结果调整模型参数。：这是学习率调度器的类型，通常是一个字符串，指定要使用的调度器类型，如 “linear”、“cosine”、“cosine_with_restarts” 等。是在强化学习中用于评估和打分模型输出的模型，根据输出的质量给予奖励或惩罚，从而指导模型进行优化。：PPO通过对策略进行限制性的更新，防止策略发生过大的变化，从而保持训练的稳定性。

2024-05-31 02:26:02 898

原创项目实训6-以PT部分为例分析前置读取代码和train_pt的部分实现

是指在大规模无标注数据集上对模型进行初步训练，使模型学习到广泛的语言特征和结构。

2024-05-31 01:18:09 876

原创项目实训4-基本工具的部署与实践

它生成了 2 倍的样本，其中前 n 个样本是被选择的，后 n 个样本是被拒绝的。例如，对于预训练、有监督的微调、无监督的微调、对偶训练等，都有不同的预处理函数。打印数据集示例：为了给用户提供更好的可见性，文件中有一些功能可以打印数据集的示例，以便用户可以查看经过预处理后的数据如何呈现。model_name_or_path：预训练模型的路径或来自 huggingface.co/models 的模型标识符。与后续模型训练代码相关。，增加了动态填充和生成注意力掩码的功能，特别适用于批处理数据的填充和序列处理。

2024-05-31 00:20:28 495

qq_44778250的博客

原创项目实训-个人工作总结

原创项目实训11-命令行测试

原创项目实训10-RM和PPO训练过程

原创项目实训5-训练相关工具实现（后补）

原创项目实训9-sft训练

原创项目实训8-模型下载和训练脚本编写

原创山东大学软件学院2023-2024二学期机器学习基础考试题回忆版

原创项目实训7-SFM、RM、PPO部分的实现

原创项目实训6-以PT部分为例分析前置读取代码和train_pt的部分实现

原创项目实训4-基本工具的部署与实践

原创项目实训3-调参方式设计以及训练策略链

原创项目实训2-模型预修改

原创项目实训1-模型选择与比较

空空如也

空空如也