Liuffet-CSDN博客

原创 BEVFormer

每一时刻生成的 BEV 特征都从上一时刻的 BEV 特征获取了所需的时序信息，这样保证能够动态获取所需的时序特征，而非像堆叠不同时刻 BEV 特征那样只能获取定长的时序信息。具体而言，给定上一时刻的 BEV 特征，我们首先根据 ego motion 来将上一时刻的 BEV 特征和当前时刻进行对齐，来确保同一位置的特征均对应于现实世界的同一位置。由于本方法使用多尺度的图像特征和高分辨率的 BEV 特征，直接使用最朴素的 global attention 会带来无法负担的计算代价。

2024-08-01 11:53:03 418

原创数据合成 —— controlcom-image-composition

2024-08-01 11:38:57 83

原创数据合成 —— Stable diffusion xl

SDXL Base模型由U-Net、VAE以及CLIP Text Encoder（两个）三个模块组成，在FP16精度下Base模型大小6.94G（FP32：13.88G），其中U-Net占5.14G、VAE模型占167M以及两个CLIP Text Encoder一大一小（OpenCLIP ViT-bigG和OpenAI CLIP ViT-L）分别是1.39G和246M。SDXL Base的Encoder和Decoder结构都采用4个stage，而SDXL Base设计的是3个stage。

2024-08-01 09:57:43 469

原创数据合成 —— Diffusion模型

从xt到xt-1，一开始不是很好计算，因为x0取决于之前的所有步长，于是我们构建KL散度，最后化简的结果是直接预测噪声后带到特定的式子中预测均值，不用网络直接预测均值。Diffusion模型灵感来自于非平衡热力学，首先定义一个马尔科夫链，输入一张图片后缓慢将噪声添加到数据中，然后进行逆扩散过程，从噪声中构建出数据样本。前向过程向原始图片中加入高斯噪声，直至最后的图像趋近于高斯分布。每一时刻加的噪声强度都不一样，由调度器控制。

2024-07-31 18:37:38 102

原创对话式数字人

在生成表情系数时，audio encoder会将语音每一时间步的梅尔频谱图编码为向量，然后连同表情系数，zblink（一个表示眨眼概率的参数），一起输入到mapping网络中，mapping网络是一个全连接层，把三个输入的向量映射到一个64维的表示；这两个系数是由两个不同的解码器输出的，因为表情作为局部特征，头部姿势作为全局特征，比如音量特征会影响表情但不会影响头部姿势，所以在解码时候将其解耦有助于避免生成畸变的人脸。对话式数字人的应用场景很广，最近几年在银行场景，教育场景，娱乐场景都有应用。

2024-07-30 22:11:32 210

原创 Prompt recovery —— Phi2模型

在huggingface开源LLM榜单中，看到phi2模型的下载量仅次于Llamma3，并且看到微软在几个公开的基准测试集上进行测试，phi2的效果好于phi1.5，且是基于GPT生成的合成数据进行预训练，于是想尝试一下微调phi2。使用QLORA进行微调，需要用给模型加EOS点，将LORA模块加入到QKV和Projection中，用SFT的方式进行微调，用时大概24小时。在T4 GPU上使用FP16 phi2-2.7B进行推理，大概消耗VRAM 6个G。

2024-07-29 21:55:45 220

原创 Prompt recovery —— RAG搭建

参考微软的分析，在模型分块比较小的时候有比较高的召回率，但是也不能太小，可能会造成信息丢失。以512tokens并且保持百分之二十五的重叠率为效果比较好的。因为单纯地训练文本相似度不是很能达到要求，打算增加一个RAG做检索增强，用于检索模型预测的prompt embedding。用langchain构建一个RAG，用于检索增强。在构建的时候可能遇到问题的点是一开始的数据分块和检索后的重排序。重排序引进bge-reranking模型对产生的embedding进行重排序以更好地输出相似的embedding。

2024-07-29 21:13:46 137

原创 Prompt recovery —— Deberta模型

第一个是一开始解耦相对位置向量和内容向量作为模型输入，这使得单词之间的注意力权重矩阵是通过位置向量和内容向量分别计算得到的，强调了模型之间的相对位置关系。用gensim框架中的word2vec，尝试了skip-gram模型和CBOW模型，用Tensorboard进行可视化，最后获得的log图像很接近。这篇文章简单介绍下把prompt转化为embedding的方法和选取Deberta模型的原因以及Deberta模型的训练过程。第二个是引入增强的解码器，在解码层中包含绝对位置，以预测模型预训练过程中的掩码。

2024-07-29 20:20:14 222

原创 Prompt recovery —— 数据清洗与过滤

使用MinhashLSH算法进行去重过滤，此方法先将文本分割成句子，计算每一个句子的n元组，然后计算相邻句子的n元组Jaccard相似度，设定阈值进行过滤。使用Fasttext算法进行质量过滤，此算法会先将输入的文本转换为标签，然后判断此标签是否符合配置文件的格式，不符合的会将其删除。然后进行清洗操作，用正则化表达式对文中的特殊字符进行删除。使用质量过滤和去重过滤进行数据处理。

2024-07-27 16:33:07 169

Silver_ljh的博客