自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(213)
  • 收藏
  • 关注

原创 Model-based RL&动态规划(基于价值、基于策略,泛化迭代)

对于马尔可夫决策过程(MDP),在不知道环境的状态转移函数和奖励函数下(或者是known MDP,但环境太大太复杂无法去使用)就使用无模型的强化学习算法和基于模型的强化学习算法算出最优策略和最优价值函数(控制),或者求出某一策略下的价值函数(预测)。因此,对于上面的问题,不一定让策略评估和策略改进反复交替多次,而是用贝尔曼最优方程,一次性确定各个状态的 Vπ(s),再用这些最优状态值函数Vπ(s)计算动作值函数 Q(s,a) ,最后取Q(s,a)最大的动作,这就是值函数迭代算法。

2024-09-09 16:31:07 880

原创 强化学习策略更新方法on-policy与off-policy(重要性采样,q-Learning,sarsa)

Off-policy方法的典型例子是:Q-learning,DQN(Deep Q-Networks),DDPG(Deep Deterministic Policy Gradient),SAC(Soft Actor-Critic)等。On-policy方法的典型例子是:REINFORCE算法,Actor-Critic算法,PPO(Proximal Policy Optimization,近端策略优化)算法等。策略更新方法可以分为两类:On-policy(在线策略)和Off-policy(离线策略)。

2024-09-09 10:50:19 236

原创 RNN发展(RNN/LSTM/GRU/GNMT/transformer/RWKV)

RNN/LSTM/GRU/GMNT/Transformer/RWKV

2024-09-06 14:34:37 1312

原创 语音平台调研

是以D-对话为核心的一站式交互定制平台,覆盖多应用场景和第三方内容资源,内置语音技能库,为物联网、移动互联网和互联网的开发者,提供单项技术服务和一站式对话交互定制解决方案。作为一个全链路智能对话开放平台,DUI提供的,不仅是基于思必驰智能语音语言技术的对话功能,更包括开发者在定制对话系统时所需要的综合服务,如GUI定制、版本管理、私有云部署等,让开发者可以完全依据需求随心所欲定制对话交互系统。两大协议连通起来的对话核心系统、智能设备开放平台和技能开放平台,构成了完整DuerOS的智能生态系统。

2024-08-05 10:45:27 306

原创 RAG调研

检索增强生成(RAG)是一种使用外部知识库辅助文本生成的技术。它结合了检索与生成,通过访问外部数据库检索得到有关的信息,把检索得到的信息与query合并为新的prompt,让LLM从包含外部信息的prompt中学习知识(in-context learning)并生成正确答案。核心步骤(1)检索(Retrieval) (2)增强(Augmentation)(3)生成(Generation)

2024-07-31 11:49:06 1071

原创 NLP数据增强方法

常用的NLP数据增强方法:1、回译2、 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句⼦中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进⾏替换。3、 随机插⼊(RI: Randomly Insert):不考虑stopwords,随机抽取⼀个词,然后在该词的同义词集合中随机选择⼀个,插⼊原句⼦中的随机位置。4、 随机交换(RS: Randomly Swap):句⼦中,随机选择两个词,位置交换。

2024-07-25 18:36:38 946

原创 AUC理解

一个是ROC曲线的面积另外一个是统计意义。从统计学角度理解,AUC等于随机挑选一个正样本和负样本时,模型对正样本的预测分数大于负样本的预测分数的概率。

2024-07-25 11:39:42 1004

原创 分类常用的评价指标-二分类/多分类

查准率 Precision=TP/(TP+FP)」查全率Recall=TP/(TP+FN)」即为正例被判断为正例的概率TPR=TP/(TP+FN)」即为反例被判断为正例的概率FPR=FP/(TN+FP):ACC = 1-e样本失衡时,如何评价分类器的性能好坏?使用ROC曲线ROC曲线:ROC空间是一个以伪阳性率(FPR,false positive rate)为X轴,真阳性率(TPR, true positive rate)为Y轴的二维坐标系所代表的平面。

2024-07-25 10:38:05 507

原创 中文大模型数据集

2、完成融合coig以及catslu数据的指令微调,在catslu测试数据集上效果验证domain acc=0.646,

2024-07-17 15:35:09 433

原创 音频数据集

下载地址:https://voice.mozilla.org/data时长:1965小时(目前为止)最早2017年发布,持续更新,该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。Mozilla 宣称其拥有可供使用的最大的人类语音数据集,当前数据集有包括 29 种不同的语言,其中包括汉语,从 4万多名贡献者那里收集了近 2454 小时(其中1965小时已验证)的录音语音数据。

2024-07-17 15:32:28 1757

原创 文本生成指标评估

余弦相似度::::忠实度(即生成的数据样本是否接近原始样本)TransRate::::紧凑度(即每个类的样本是否足够紧凑以进行良好区分)生成的样本与label的紧凑度Z为生成的文本embedding, Y 为label"

2024-07-17 15:10:09 801

原创 多模态大模型--音频&文本

的目标是,通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下,即使音频被压缩,我们听到的声音与原版也应该没有任何区别。Opus是一个多才多艺的音频编解码器,它适用于各种应用,从视频会议(比如 Google Meet)到在线视频流(比如 YouTube)。Opus支持的压缩比率非常灵活,从每秒6千比特到每秒510千比特都可以。EVS,是由3GPP标准化组织针对移动电话>)开发的最新编解码器。它也支持不同的压缩比率,从每秒5.9千比特到每秒128千比特。

2024-07-17 15:09:56 1016

原创 扩散模型diffusion model

扩散模型

2024-05-13 15:10:09 1170

原创 prompt问题【中间不好】

prompt问题

2024-04-19 16:07:28 1213

原创 mamba->jamba

mamba模型

2024-04-17 15:14:48 1393

原创 随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)

随机分词与tokenizer(BPE->BBPE->Wordpiece->Unigram->sentencepiece->bytepiece)

2023-12-08 17:58:01 2576

原创 中文分词演进(查词典,hmm标注,无监督统计)新词发现

中文分析&新词发现

2023-12-08 17:13:47 1474

原创 generation的重复性问题

解决大模型的重复性问题

2023-11-21 16:52:24 1138

转载 标准self-attention的几个变种的理解【token对token”是必须的吗】【必须有softmax吗】

在自动摘要这个任务上,标准注意力效果比较好,但是对话生成这个任务上,结果则反过来:标准的自注意力是最差的,Dense(D)和Random(R)是最好的,而当Dense和Random混合了标准的自注意力后(即 D+V 和 R+V),效果也变差了。这说明标准注意力并没有什么“独占鳌头”的优势,而几个Synthesizer看起来是标准注意力的“退化”,但事实上它们互不从属,各有优势。

2023-10-30 17:08:50 599

转载 multihead attention增强表达能力,解决“低秩瓶颈”

第一个结果来自文章《Low-Rank Bottleneck in Multi-head Attention Models》,它明确地指出了Multi-Head Attention里边的表达能力瓶颈,并提出通过增大key_size的方法来缓解这个瓶颈。它能增加Attention的表达能力,并且不改变模型整体的hidden_size,计算量上也只是稍微增加了一点通常Q,K,V分别是对输入矩阵X进行不同W矩阵投影,

2023-10-30 16:52:12 495

原创 大模型LLM相关面试题整理

LLM(Large Language Model,大型语言模型)是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择,以下是一种常见的大模型LLM的架构介绍:Transformer架构:大模型LLM常使用Transformer架构,它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。

2023-10-20 14:12:32 4012

原创 怎么让英文大语言模型支持中文?--构建中文tokenization--继续预训练--指令微调

1、使用sentencepiece训练一个中文的词表。2、使用transformers加载sentencepiece模型。3、怎么合并中英文的词表,并使用transformers使用合并后的词表。4、在模型中怎么使用新词表。

2023-10-18 14:48:49 1561

原创 大模型LLM相关面试题整理-训练集-训练经验-微调

综上所述,全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度以及训练设备的显存限制。在进行全参数微调之前,建议先评估所需的显存量,并确保训练设备具备足够的显存来支持训练过程。13b的占用大约50G内存,在64G内存上,i9 12900h运行缓慢7b的占用约26G内存,在64G内存上,i9 12900h运行、响应速度还可以,全参数finetune至少需要4倍的数据。

2023-10-17 19:55:35 3227 1

原创 大模型LLM相关面试题整理-PEFT

PEFT(Performance Estimation and Modeling for Fine-Tuning)是一种用于微调任务的性能估计和建模方法。它的目的是帮助研究人员和从业者在微调过程中更好地理解和预测模型的性能,并进行更有效的模型选择和调优。PEFT的主要思想是通过预测模型在微调任务上的性能,提供对不同模型和参数设置的性能估计。这样可以避免在大规模数据集上进行昂贵的微调实验,从而节省时间和计算资源。数据采样:从原始数据集中采样一小部分数据用于性能估计。

2023-10-17 19:40:51 1316 4

原创 大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm

绝对位置编码是一种用于为序列数据中的每个位置添加绝对位置信息的技术。在自然语言处理中,绝对位置编码常用于处理文本序列,特别是在使用Transformer模型进行序列建模的任务中。在传统的Transformer模型中,位置编码使用了正弦和余弦函数的组合来表示相对位置信息,但它并没有提供绝对位置的信息。这意味着,如果将输入序列的位置进行重新排序或删除/添加元素,模型将无法正确地理解序列的新位置。为了解决这个问题,绝对位置编码被引入到Transformer模型中。

2023-10-17 19:37:10 1747

原创 向量相似检索优化(乘积量化(PQ,)

倒排索引(Inverted File System,IVF)乘积量化(PQ, Product Quantization)

2023-10-12 11:21:39 169

原创 位置编码与外推性[bias(Alibi/KERPLE/Sandwich)+插值 + ROPE/RERope + keynorm。与长度外推性]

长度外推性=train short, test longtrain short:1)受限于训练成本;2)大部分文本的长度不会特别长,训练时的max_length特别特别大其实意义不大(长尾)。test long:这里long是指比训练时的max_length长,希望不用微调就能在长文本上也有不错的效果。

2023-09-21 14:59:13 2677

原创 大模型训练之加速篇 -attention优化【稀疏attention->线性化attention->分块计算->简化attention->Transformer-VQ】

加速

2023-09-21 10:27:10 5540

原创 大模型训练之加速篇 -> peft(Lora->ReLORA->Vera->Dora->LISA->Lora+->Lora-GA) -> accelerator -> deepspeed (Zero)

加速。大模型

2023-09-20 17:29:54 1240

转载 RLHF优化

RLHF优化

2023-09-14 17:11:17 229

原创 peft代码解读:Prefix Tuning/LoRA/P-Tuning/Prompt Tuning

peft

2023-06-28 15:09:58 2578 4

翻译 大模型训练之计算量和内存优化篇------混合精度/量化/FSDP&cpu offload/Gradient Checkpointing

大模型训练显存和计算量优化

2023-05-24 19:59:40 3390 1

原创 ubuntu GRPC protobuf 环境安装

cmakegrpc环境

2023-05-10 15:55:21 650

原创 大模型训练之并行篇-------数据并行/模型并行(层间层内)/流水并行

ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning 发表在SC 21,同样是进行offload,ZeRO-Offload更侧重单卡场景,而ZeRO-Infinity则是典型的工业界风格,奔着极大规模训练去了。层间模型并行则是对模型层进行切分,业界也有很多做框架的公司管它叫Pipeline并行,但是我的观点是层间模型并行只有真的流水起来了才能够叫Pipeline并行。典型例子就是1D的Megatron。

2023-03-29 15:58:54 5220

原创 NER 任务以及联合提槽任务

NER & cls联合提取

2023-03-29 15:18:47 628

原创 hugginface相关数据集整理

数据集

2023-03-21 17:14:54 771

原创 图网络模型 GCN->GAT

ZGCN0)W1【两层的GCN Layer】

2023-03-20 15:59:40 1561

转载 马科夫过程(MP) -> 马尔科夫奖励过程(MRP) -> 马尔科夫决策过程(MDP)

马尔可夫

2023-02-21 20:17:57 843

原创 强化学习基础

强化学习

2023-02-15 17:05:33 1494

原创 预训练范式提示学习方法一览(PET, Prefix-tuning,P-tuning,prompt tuning, PPT,SPoT, Prompt-tuning鲁棒性研究)

prompt 训练

2023-02-07 16:49:32 2242

python打印圣诞树,christmas

基础版:用*打印 升级版:turtle画出来 终极版:pygame加载音乐动态

2023-12-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除