- 博客(336)
- 资源 (3)
- 收藏
- 关注
原创 【qwen2-1.5-instruct 好于Gemma2-2b-instruct\Llama3.2-1B-instruct】
他们的声明伴随着关于新模型家族的事实:密集型、易于使用的仅解码器语言模型,提供 0.5B、1.5B、3B、7B、14B、32B 和 72B 尺寸,以及基础和指令变体。从 Qwen2–1.5B-instruct 到 Gemma2–2B-instruct,再到 Llama3.2–1B-instruct,最后是新的 Qwen2.5–1.5B-instruct。虽然我对 Llama3.2–1B-instruct 感到相当失望,但对新的 Qwen2.5–1.5B-instruct 的出色表现感到惊讶。
2024-11-02 12:31:44 153
原创 【Conan-embedding模型排名第一的embedding中文模型】
详细解释动态难负样本挖掘的工作流程。"""判断是否需要替换负样本""""""获取替换样本的索引范围""""""模拟训练过程"""# 初始化# 初始负样本# 记录训练过程# 模拟训练迭代# 模拟模型逐渐学习负样本的过程# 随着训练进行,得分会降低(模型越来越确信这些是负样本)# 首次记录初始得分# 每隔update_interval次迭代检查是否需要替换# 如果需要替换# 运行模拟并可视化结果。
2024-11-01 14:01:17 796
原创 长思维PRM
除了常见的连接词如 “and” 和 “so” 之外。还出现了"wait", Alternatively" 等特殊的关键词,"像 “wait” (表示反思)和 “Alternatively”(表示探索不同路径) 这样的关键词是模型能够进行反思和自我纠正的重要指标迭代式问题解决关键思维指标递归和反思方法假设探索结论和验证。
2024-10-28 18:35:44 409
原创 ceval-physician采用了 accuracy作为评估指标,而 ceval-stem则采用了 naive_average的原因
如果您对具体评测方法或指标的选择有更多疑问,建议查阅 OpenCompass 和 CEval 的官方文档,以获取更详细和准确的信息。\text{Naive Average} = \frac{\sum \text{各子科目的得分}}{\text{子科目数量}}\text{Accuracy} = \frac{\text{模型正确回答的题目数量}}{\text{总题目数量}},那么题目数量多的科目会对总分产生更大的影响,可能不公平地代表模型的整体性能。,包含多个子科目或任务,如物理、化学、数学、计算机科学等。
2024-10-24 15:10:10 656
原创 微调大模型语料
美容服务对话:主要是围绕美容相关服务进行的个性化推荐与沟通,强调客户体验和服务细节。健康咨询:重点是提供基础的健康信息和建议,语气专业且以用户健康为导向。专业知识讨论:涉及深度知识的讨论,面向专业人士,语言技术性强。用户反馈:用户针对产品或服务的直接评价,可能正面也可能负面,重点在于用户的个人体验。
2024-10-24 10:30:33 394
原创 根据日志优化微调
当前训练日志显示学习率已降至极低水平,可能导致模型未能充分优化。通过调整学习率调度器、增加训练轮次、扩展训练数据以及优化微调参数,您有望显著提升LORA微调的效果,确保模型能够准确记忆和回答“天优218”的相关问题。根据日志内容和之前的交流,我将对当前训练状态进行分析,并提供进一步的优化建议,以帮助您提升LORA微调的效果。如果在调整过程中遇到任何具体问题,欢迎随时提供更多信息,我将乐意进一步协助您优化模型微调过程。
2024-10-21 15:37:51 513
原创 一个问答对分析微调
当前的微调结果显示模型未能正确记忆和应用训练数据中的信息,导致回答错误。通过增加和优化训练数据、调整微调参数以及确保训练过程的充分性,可以提升模型在相关问题上的表现,确保其给出准确的回答。微调后的模型回答“天优218的水稻品种审定编号是桂审稻2016017号”与训练语料中提供的正确答案“苏审稻200404”不符。因此,可以判断此次微调结果。
2024-10-21 14:59:34 198
原创 通过一个问答分析微调结果
从农业知识的角度来看,模型的回答“微生物菌剂适用于玉米、水稻、大豆等农作物”是正确的。然而,如果您的训练目标是让模型仅限于回答特定作物(如黄烟、大葱),那么当前的微调结果可能未完全达到预期。建议根据您的具体需求,调整训练语料的覆盖范围,并确保训练数据的全面性,以引导模型生成更符合预期的回答。LORA训练语料中指定了“微生物菌剂适用于黄烟、大葱等作物”,但在微调完成后,模型回答“微生物菌剂适用于玉米、水稻、大豆等农作物”。
2024-10-21 14:46:44 232
原创 【多类别分类中的准确率召回率平均策略】
与宏平均(Macro Average)不同,微平均在计算指标(如精确率、召回率、F1 分数)时,先将所有类别的预测和实际值汇总,然后计算整体指标。在机器学习和数据科学中,宏平均(Macro Average)通常指的是在评估分类模型性能时,对每个类别的指标(如精确率、召回率、F1分数)先分别计算,然后取平均值,而不考虑各类别的样本数量。与宏平均的区别:宏平均先对每个类别分别计算指标,再取平均,而微平均直接基于整体数据计算。适用于类别不平衡:由于微平均考虑了每个实例,对样本数量不平衡的数据集更具代表性。
2024-10-21 14:26:41 329
原创 实体识别、槽位填充以及相关的评估指标之间的关系
总结:实体识别包括识别文本中的命名实体,而槽位填充则是将识别出的实体或其他关键信息映射到特定的槽位中。对于实体识别和槽位填充,我们通常都会使用准确率(Precision)和召回率(Recall)来评估性能。在实际应用中,一个好的对话系统通常需要先进行实体识别,然后基于识别结果进行槽位填充,最后再评估整体性能。a. 实体准确率 = 正确识别的实体数 / 系统识别出的所有实体数。c. 槽位准确率 = 正确填充的槽位数 / 系统填充的所有槽位数。让我来理清实体识别、槽位填充以及相关的评估指标之间的关系。
2024-10-19 10:51:08 178
原创 【用大模型提示工程处理NLP任务】
以下是一些典型的任务和最佳实践提示,帮助您更好地使用 Batch API。从大量文本中提取结构化信息,如:命名实体识别(NER)、关系抽取、事件抽取等。将大量文本数据分类到预定义类别中,如:新闻分类和垃圾邮件检测等。利用语言模型大批量生成文本内容,如:撰写SEO文章、小说创作等。大规模的文本翻译任务,将文本从一种语言翻译成另一种语言。识别和分析文本中的情感倾向,如:正面、负面或中性情感。处理和分析大量文档,如:文档摘要生成、关键信息提取等。自动检测和纠正大批量文本中的拼写错误、语法错误等。
2024-10-12 18:23:57 392
原创 【司南大模型评测工具 API评测商业大模型】
2、在configs/api_examples 中修改eval_api_zhipu_v2.py。1、司南大模型评测工具(如果是pip安装,也要git clone 代码文件夹)1、基于 API 的模型评测商业应用大模型。ChatGLM@智谱清言 (api_key改成你的key。XunFei@科大讯飞 (
2024-10-10 18:44:25 441
原创 大模型微调
模型微调是通过微调工具,使用独特的场景数据对平台的基础模型进行调整,帮助你快速定制一个更符合业务需求的大型模型。其优势在于对基础模型进行小幅调整以满足特定需求,相比于训练一个新模型,这种方法更为高效且成本更低。
2024-10-10 09:36:37 369
原创 基础模型权重初始化为0会导致以下问题,LoRA的B可以初始化为0
LoRA 的本质是通过低秩矩阵分解来减少模型微调的复杂度。矩阵 ( A ) 的本质作用是调节和传递调整信号,它决定了权重微调是否以及如何发生。矩阵 ( B ) 的本质是提供潜在的权重调整信息,作为微调的基础。LoRA 通过 ( A ) 和 ( B ) 的合作,完成了对模型权重的高效微调,这就是它降低训练成本的核心机制。
2024-10-08 20:19:06 658
原创 【Transformer 模型中的投影层,lora_projection是否需要?】
总结来说,投影层是 Transformer 模型中多个关键线性变换层的集合,LoRA 可以通过减少参数量和提高效率,在这些层中带来益处。当你提到在投影层使用 LoRA 时,指的应该是在这些线性变换层中应用 LoRA 技术。:训练一个不使用 LoRA 的基线模型,比较其与使用 LoRA 的模型在相同数据集上的表现,包括训练时间、精度、损失函数等指标。:LoRA 可以通过限制模型的自由度(因为低秩近似会对参数进行约束),减少模型在训练集上的过拟合情况,从而提高泛化性能。在 Transformer 模型中,
2024-10-08 19:30:12 323
原创 对话系统中NLU和DST协同举例
在开始之前,首先定义对话的ontology,包括所有槽位及其可能的取值。槽位菜品类型(dish):意大利面、沙拉、披萨送餐时间(delivery_time):今晚、明天。
2024-09-30 11:46:17 444
原创 大模型多轮问答
Advanced Multi-Turn QA System with LLM and Intent Recognition. 基于LLM大语言模型意图识别、参数抽取结合slot词槽技术实现多轮问答、NL2API. 打造Function Call多轮问答最佳实践。
2024-09-29 18:00:11 180
原创 【评测大语言模型(LLM)的效果】
在某些应用场景下,除了生成效果外,模型的推理速度、计算资源消耗(如内存和计算时间)、成本等也非常重要。这是一种设计难以处理的输入或问题,以测试模型的鲁棒性和应对复杂场景的能力。由于语言生成任务的复杂性,自动化评测方法有时不足以反映模型的真正效果,因此人类评估非常重要。特别是在产品化的应用中,可以通过收集用户的真实反馈或通过AB测试比较不同版本的模型,来量化用户体验和产品性能的提升。通过结合自动化评测和人类评估的方法,并根据任务和应用场景的需求来调整评估标准,可以更全面地评测LLM的效果。
2024-09-29 17:38:42 765
原创 在目标检测模型中使用正样本和负样本组成的损失函数。
在这种设置中,正样本(预测框A)用于计算主要的分类和定位损失,使得模型能够学习更好地预测目标的类别和位置。而负样本(预测框B和C)则用于计算分类损失,帮助模型不误检测不相关的框。这种方式通过优化正样本的损失,并在负样本中最小化不必要的影响,从而提升目标检测模型的整体性能。
2024-09-06 18:41:07 837
原创 Anchor Alignment Metric来优化目标检测的标签分配和损失函数。
通过这种方式,TaskAligned方法能够动态调整Anchor的标签分配,使得模型能够在训练过程中更加关注与真实目标对齐的Anchor,从而提升目标检测的性能。
2024-09-06 18:23:26 851
原创 【github pull request贡献】
我们可以简单的将开源项目划分成两类,一类是给最终用户使用的项目;对于第二类项目,有可以分为几类:开发框架(各种Web MVC框架)、基础服务(MySQL、Message Queue)、可以被插件扩展的软件(FIrefox、Chrome)、编程语言(Ruby、Python、NodeJS)、模板引擎(SaSS、Less、HAML)等等。好的开源项目,通常会选择合理的目录结构,来组织自己的代码。而包(Package),则往往具有一定的可重用性。我们可以认为,一个模块,开源出去未必会有人来用。
2024-09-02 14:31:01 296
原创 【写提示最厉害的了:Prompt Poet 通过低代码简化了 Prompt Design 的过程】
全球最大的 AI 虚拟人物对话平台 Character.AI 开源了它们的 Prompt Design 项目—— Prompt Poet
2024-08-27 18:27:52 245
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人