- 博客(209)
- 收藏
- 关注
原创 NLP数据增强方法
常用的NLP数据增强方法:1、回译2、 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句⼦中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进⾏替换。3、 随机插⼊(RI: Randomly Insert):不考虑stopwords,随机抽取⼀个词,然后在该词的同义词集合中随机选择⼀个,插⼊原句⼦中的随机位置。4、 随机交换(RS: Randomly Swap):句⼦中,随机选择两个词,位置交换。
2024-07-25 18:36:38
492
原创 AUC理解
一个是ROC曲线的面积另外一个是统计意义。从统计学角度理解,AUC等于随机挑选一个正样本和负样本时,模型对正样本的预测分数大于负样本的预测分数的概率。
2024-07-25 11:39:42
757
原创 分类常用的评价指标-二分类/多分类
查准率 Precision=TP/(TP+FP)」查全率Recall=TP/(TP+FN)」即为正例被判断为正例的概率TPR=TP/(TP+FN)」即为反例被判断为正例的概率FPR=FP/(TN+FP):ACC = 1-e样本失衡时,如何评价分类器的性能好坏?使用ROC曲线ROC曲线:ROC空间是一个以伪阳性率(FPR,false positive rate)为X轴,真阳性率(TPR, true positive rate)为Y轴的二维坐标系所代表的平面。
2024-07-25 10:38:05
335
原创 音频数据集
下载地址:https://voice.mozilla.org/data时长:1965小时(目前为止)最早2017年发布,持续更新,该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。Mozilla 宣称其拥有可供使用的最大的人类语音数据集,当前数据集有包括 29 种不同的语言,其中包括汉语,从 4万多名贡献者那里收集了近 2454 小时(其中1965小时已验证)的录音语音数据。
2024-07-17 15:32:28
1248
原创 文本生成指标评估
余弦相似度::::忠实度(即生成的数据样本是否接近原始样本)TransRate::::紧凑度(即每个类的样本是否足够紧凑以进行良好区分)生成的样本与label的紧凑度Z为生成的文本embedding, Y 为label"
2024-07-17 15:10:09
708
原创 多模态大模型--音频&文本
的目标是,通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下,即使音频被压缩,我们听到的声音与原版也应该没有任何区别。Opus是一个多才多艺的音频编解码器,它适用于各种应用,从视频会议(比如 Google Meet)到在线视频流(比如 YouTube)。Opus支持的压缩比率非常灵活,从每秒6千比特到每秒510千比特都可以。EVS,是由3GPP标准化组织针对移动电话>)开发的最新编解码器。它也支持不同的压缩比率,从每秒5.9千比特到每秒128千比特。
2024-07-17 15:09:56
664
原创 随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)
随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)
2023-12-08 17:58:01
2037
转载 标准self-attention的几个变种的理解【token对token”是必须的吗】【必须有softmax吗】
在自动摘要这个任务上,标准注意力效果比较好,但是对话生成这个任务上,结果则反过来:标准的自注意力是最差的,Dense(D)和Random(R)是最好的,而当Dense和Random混合了标准的自注意力后(即 D+V 和 R+V),效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势,而几个Synthesizer看起来是标准注意力的“退化”,但事实上它们互不从属,各有优势。
2023-10-30 17:08:50
457
转载 multihead attention增强表达能力,解决“低秩瓶颈”
第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》,它明确地指出了Multi-Head Attention里边的表达能力瓶颈,并提出通过增大key_size的方法来缓解这个瓶颈。它能增加Attention的表达能力,并且不改变模型整体的hidden_size,计算量上也只是稍微增加了一点通常Q,K,V分别是对输入矩阵X进行不同W矩阵投影,
2023-10-30 16:52:12
406
原创 大模型LLM相关面试题整理
LLM(Large Language Model,大型语言模型)是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择,以下是一种常见的大模型LLM的架构介绍:Transformer架构:大模型LLM常使用Transformer架构,它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。
2023-10-20 14:12:32
3090
原创 怎么让英文大语言模型支持中文?--构建中文tokenization--继续预训练--指令微调
1、使用sentencepiece训练一个中文的词表。2、使用transformers加载sentencepiece模型。3、怎么合并中英文的词表,并使用transformers使用合并后的词表。4、在模型中怎么使用新词表。
2023-10-18 14:48:49
1306
原创 大模型LLM相关面试题整理-训练集-训练经验-微调
综上所述,全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度以及训练设备的显存限制。在进行全参数微调之前,建议先评估所需的显存量,并确保训练设备具备足够的显存来支持训练过程。13b的占用大约50G内存,在64G内存上,i9 12900h运行缓慢7b的占用约26G内存,在64G内存上,i9 12900h运行、响应速度还可以,全参数finetune至少需要4倍的数据。
2023-10-17 19:55:35
2814
1
原创 大模型LLM相关面试题整理-PEFT
PEFT(Performance Estimation and Modeling for Fine-Tuning)是一种用于微调任务的性能估计和建模方法。它的目的是帮助研究人员和从业者在微调过程中更好地理解和预测模型的性能,并进行更有效的模型选择和调优。PEFT的主要思想是通过预测模型在微调任务上的性能,提供对不同模型和参数设置的性能估计。这样可以避免在大规模数据集上进行昂贵的微调实验,从而节省时间和计算资源。数据采样:从原始数据集中采样一小部分数据用于性能估计。
2023-10-17 19:40:51
1158
4
原创 大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm
绝对位置编码是一种用于为序列数据中的每个位置添加绝对位置信息的技术。在自然语言处理中,绝对位置编码常用于处理文本序列,特别是在使用Transformer模型进行序列建模的任务中。在传统的Transformer模型中,位置编码使用了正弦和余弦函数的组合来表示相对位置信息,但它并没有提供绝对位置的信息。这意味着,如果将输入序列的位置进行重新排序或删除/添加元素,模型将无法正确地理解序列的新位置。为了解决这个问题,绝对位置编码被引入到Transformer模型中。
2023-10-17 19:37:10
1487
原创 向量相似检索优化(乘积量化(PQ,)
倒排索引(Inverted File System,IVF)乘积量化(PQ, Product Quantization)
2023-10-12 11:21:39
133
原创 位置编码与外推性[bias(Alibi/KERPLE/Sandwich)+插值 + ROPE/RERope + keynorm。与长度外推性]
长度外推性=train short, test longtrain short:1)受限于训练成本;2)大部分文本的长度不会特别长,训练时的max_length特别特别大其实意义不大(长尾)。test long:这里long是指比训练时的max_length长,希望不用微调就能在长文本上也有不错的效果。
2023-09-21 14:59:13
2358
原创 大模型训练之加速篇 -attention优化【稀疏attention->线性化attention->分块计算->简化attention->Transformer-VQ】
加速
2023-09-21 10:27:10
4113
原创 大模型训练之加速篇 -> peft(Lora->ReLORA->Vera->Dora->LISA->Lora+->Lora-GA) -> accelerator -> deepspeed (Zero)
加速。大模型
2023-09-20 17:29:54
1012
翻译 大模型训练之计算量和内存优化篇------混合精度/量化/FSDP&cpu offload/Gradient Checkpointing
大模型训练显存和计算量优化
2023-05-24 19:59:40
3042
1
原创 大模型训练之并行篇-------数据并行/模型并行(层间层内)/流水并行
ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning 发表在SC 21,同样是进行offload,ZeRO-Offload更侧重单卡场景,而ZeRO-Infinity则是典型的工业界风格,奔着极大规模训练去了。层间模型并行则是对模型层进行切分,业界也有很多做框架的公司管它叫Pipeline并行,但是我的观点是层间模型并行只有真的流水起来了才能够叫Pipeline并行。典型例子就是1D的Megatron。
2023-03-29 15:58:54
4960
原创 预训练范式提示学习方法一览(PET, Prefix-tuning,P-tuning,prompt tuning, PPT,SPoT, Prompt-tuning鲁棒性研究)
prompt 训练
2023-02-07 16:49:32
2033
原创 leetcode---距离计算
1131. 绝对值表达式的最大值给你两个长度相等的整数数组,返回下面表达式的最大值:|arr1[i] - arr1[j]| + |arr2[i] - arr2[j]| + |i - j|其中下标 i,j 满足 0 <= i, j < arr1.length。按照数学中将abs展开多种情况分析,数学解...
2022-11-25 15:04:52
683
原创 leetcode--序列化与反序列化
剑指 Offer 37. 序列化二叉树请实现两个函数,分别用来序列化和反序列化二叉树。你需要设计一个算法来实现二叉树的序列化与反序列化。这里不限定你的序列 / 反序列化算法执行逻辑,你只需要保证一个二叉树可以被序列化为一个字符串并且将这个字符串反序列化为原始的树结构。提示:输入输出格式与 LeetCode 目前使用的方式一致,详情请参阅 LeetCode 序列化二叉树的格式。你并非必须采取这种方式,你也可以采用其他的方法解决这个问题。# Definition for a binary tre
2022-11-25 15:04:38
89
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人