DeepSeek-coder 微调训练记录

简介

微调过程不再细说, 参考link进行即可. 主要是数据集.
在这里插入图片描述

1.3b模型微调训练占用资源信息

在这里插入图片描述
top信息

评估

根据DeepSeek-coder的Evaluation试进行对微调后的模型进行评估. 其中的评估库主要是evol-teacherhuman-eval.

进入DeepSeek-coder下的Evaluation中的Human-eval文件夹, 新建一个eval_ins.sh文件, 填入以下内容

LANG="python"
OUPUT_DIR="output"
MODEL="deepseek-coder-1.3b-instruct"

CUDA_VISIBLE_DEVICES=0,1 python eval_instruct.py \
    --model "deepseek-ai/$MODEL" \  # 修改路径为微调保存的模型路径
    --output_path "$OUPUT_DIR/${LANG}.$MODEL.jsonl" \
    --language $LANG \
    --temp_dir $OUPUT_DIR

随后启动bash eval_ins.sh

model /home/LLM/DeepSeek-Coder/finetune/output/checkpoint-14500
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
load tokenizer <class 'transformers.models.llama.tokenization_llama_fast.LlamaTokenizerFast'> from /home/stlinpeiyang/lpy22/LLM/DeepSeek-Coder/finetune/output/checkpoint-14500 over.
Read 164 examples for evaluation over.
Generating:   1%|| 2/164 [07:10<10:00:15, 222.32s/it]Failed to extract code block with error `list index out of range`:
>>> Task: Python/2
>>> Output:
def truncate_number(number: float) -> float:
    """ Given a positive floating point number, it can be decomposed into
    and integer part (largest integer smaller than given number) and decimals
    (leftover part always smaller than 1).

    Return the decimal part of the number.
    >>> truncate_number(3.5)
    0.5
    """
    integer_part = int(number)
    decimal_part = number - integer_part
    return decimal_part

Generating:   6%|██▋                                          | 10/164 [28:04<7:23:26, 172.77s/it]

耗时很久.


deepseek-coder-6.7b-instruct验证数据

(py_LLM) orange:~/lpy22/LLM/DeepSeek-Coder/Evaluation/HumanEval$ bash eval_6.7b.sh
model /home/LLM/text-generation-webui/models/deepseek-coder-6.7b-instruct
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
load tokenizer <class 'transformers.models.llama.tokenization_llama_fast.LlamaTokenizerFast'> from /home/LLM/text-generation-webui/models/deepseek-coder-6.7b-instruct over.
Loading checkpoint shards: 100%|████████████████████████████████████████████| 2/2 [00:02<00:00,  1.12s/it]
Read 164 examples for evaluation over.
Generating: 100%|███████████████████████████████████████████████████| 164/164 [11:58:55<00:00, 263.02s/it]
Generate all over!!!
Save 164 processed examples into ./output/python.deepseek-coder-6.7b-instruct.jsonl over!
Reading samples...
100%|████████████████████████████████████████████████████████████████| 164/164 [00:00<00:00, 11619.16it/s]
Running test suites...
100%|███████████████████████████████████████████████████████████████████| 164/164 [00:14<00:00, 11.32it/s]
{'pass@1': 0.7865853658536586}
python {'pass@1': 0.7865853658536586} /home/LLM/text-generation-webui/models/deepseek-coder-6.7b-instruct


deepseek-coder-1.3b-instruct-finetune验证数据

Generating: 100%|███████████████████████████████████████████████████| 164/164 [10:58:16<00:00, 240.83s/it]
Generate all over!!!
Save 164 processed examples into ./output/python.deepseek-coder-1.3b-instruct-finetune.jsonl over!
Reading samples...
100%|███████████████████████████████████████████████████████████████████| 164/164 [00:00<00:00, 13670.37it
Running test suites...
100%|██████████████████████████████████████████████████████████████████████| 164/164 [00:13<00:00, 12.25it
{'pass@1': 0.6158536585365854}
python {'pass@1': 0.6158536585365854} /home/orange/LLM/DeepSeek-Coder/finetune/output/checkpoi14500

20140511
在这里插入图片描述

### 关于 DeepSeek 训练数据集获取 对于希望获取用于训练DeepSeek 这样的大型语言模型的数据集而言,通常有几种途径可以考虑。然而需要注意的是,并不是所有的专有数据集都会公开提供下载链接。 如果具体到 DeepSeek Coder 的指令微调数据集,其主要来源于高质量的人类指令,这些数据遵循 Alpaca 指令格式(Alpaca Instruction Format),并由有益且公正的人类指令构成[^3]。这类数据集的构建涉及到从诸如 GitHub 平台高效筛选和收集数据,并通过匿名化处理确保数据的质量。例如,在指令微调阶段,DeepSeek Coder-Instruct-33B 使用了大约 20 亿条指令数据来进行微调。 为了获得类似的训练数据,研究者们一般会采取如下策略: #### 寻找公共可用资源 许多科研机构或公司会选择将其使用的部分数据集开放给公众访问。可以通过搜索引擎查找是否有官方发布的相关数据集页面或是论文附带的数据集合。 #### 构建自有数据集 基于特定需求自行采集适合的任务导向型对话记录或其他形式的语言材料作为自定义数据源。这可能包括但不限于社交媒体帖子、论坛讨论区留言以及编程社区中的问答交流等内容。 #### 利用现有开源项目 一些活跃的开源项目可能会分享它们用来训练模型的数据样本,或者是提供了工具帮助用户创建自己的数据集。GitHub 上有许多这样的例子可供参考。 ```bash # 假设存在一个名为 deepseek-dataset 的假想仓库 git clone https://github.com/example/deepseek-dataset.git cd deepseek-dataset ls -l # 查看数据文件列表 ```
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值