LLAMA-factory 自制数据质量低怎么办?

我自己从课本按照格式提取8k条数据,但是训练时,sft的loss值平均在2以上,评估指标bleu-4只有20%左右,而且epoch增加评估指标还会越低。我的数据集部分如下图所示,有没有遇到相同问题的,参数应该没啥错。因为我微调自带的数据集都没啥问题所以我感觉是自己数据质量低导致,具体也不知什么原因,希望有佬指点迷津,感谢!

### 创建和使用 Deepseek 自制数据集 为了创建并有效利用自定义的数据集,在构建图像-文本对 (Image-text pair) 的数据管道时,需考虑几个重要方面。对于伪标签的处理,可以采用半监督学习方法来提高模型性能[^1]。 #### 准备环境 首先确保开发环境中已安装必要的库和支持工具。以 LLaMA-Factory 项目为例,通过 Git 克隆仓库并将所需依赖项安装到本地环境中: ```bash git clone --depth 1 https://github.com/hiyouga/LLaMA-e ".[torch,metrics]" ``` 上述命令会下载指定版本的代码库,并设置好 Python 虚拟环境以便后续操作[^2]。 #### 构建数据集结构 针对特定应用场景设计合适的数据存储格式非常重要。通常情况下,图像文件夹内放置图片资源,而对应的描述性文字则保存在一个单独的 CSV 或 JSON 文件里。每一行记录应至少包含两个字段:一个是唯一的标识符用于关联图片路径;另一个则是相应的说明文案。 #### 处理与标注数据 当收集足够的原始素材之后,下一步就是对其进行预处理以及打上合适的标签。如果缺乏高质量的人工标记样本,则可以通过迁移学习或其他方式生成初步预测作为临时解决方案——即所谓的“伪标签”。这些初始猜测有助于启动训练过程,并随着迭代逐步优化直至达到满意的精度水平。 #### 集成至现有框架 最后一步是把新建立起来的数据源融入现有的工作流当中去。这可能涉及到调整配置参数、编写适配器脚本或是扩展 API 接口等功能模块。具体实现细节取决于所使用的平台和技术栈特性。 ```python import pandas as pd from PIL import Image from transformers import CLIPProcessor, CLIPModel model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32") def load_dataset(csv_file_path): df = pd.read_csv(csv_file_path) images = [] texts = [] for index, row in df.iterrows(): image = Image.open(row['image_path']) text = row['caption'] inputs = processor(text=text, images=image, return_tensors="pt", padding=True) images.append(inputs["pixel_values"]) texts.append(inputs["input_ids"]) return {"images": images, "texts": texts} ``` 这段代码展示了如何加载一个简单的CSV格式数据集,并将其转换为适合传递给 Hugging Face Transformers 库中的 CLIP 模型的形式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值