大模型推荐词生成——Generating Query Recommendations via LLMs 【阅读笔记】 主要去进行query的相关搜索补充;例如我们引入生成查询推荐(GQR)系统。GQR以大语言模型为基础,利用大语言模型的提示能力,通过提示中提供的几个例子(检索或手工)来理解推荐任务。
一文贯通LLM推理相关知识【上下文长度、量化、模型大小】 Int4量化模型与float16模型相比,精度损失在 1 - 2 个百分点左右。(Yi模型与Baichuan2模型有类似的结论)Int8量化模型性能与float16格式差别不大。vllm最方便使用 适合操作。8 常见LLM用GPU参考。
deepspeed 报错 up NCCL communicator and retreiving ncclUniqueId from [0] via c10d key-value store 解决 2. 设置正确的NCCL_SOCKET_IFNAME。使用deepspeed的时候报错。
【论文笔记】Large Search Model: Redefining Search Stack in the Era of LLMs 现代搜索引擎是建立在不同组件的堆栈上的,包括查询理解、检索、多阶段排序和问答等。这些组件通常被独立地进行优化和部署。在本文中,我们引入了一个新颖的概念框架,称为大型搜索模型,通过将搜索任务与一个大型语言模型(LLM)统一起来,重新定义了传统的搜索堆栈。所有任务都被定义为自回归文本生成问题,通过使用自然语言提示来定制任务。这个提议的框架利用了LLM的强大的语言理解和推理能力,提供了提高搜索结果质量的潜力,同时简化了现有繁琐的搜索堆栈。
用神经网络进行回归预测 weight_decay为异常值(大于1 的值)模型效果好的原因解析 weight_decay越大越好的原因研究发生的问题特此记录之前在用神经网络来做一个回归问题,回归的数值范围是0~1之间。然后进行网格搜参(搜索最好的weight_decay和学习率)的时候发现一个不合常理的现象,就是一般往往最好的weight_decay 一般是很小的一个数值(0.001或者0.0001),但是我的最优weight_decay反而很大,这就给我造成很大的困扰,还好经过一番探索,最终锁定了问题,下面我将一一道来现象发现weight_decay 取得一个比较大的值的时候 模型效果最好
TEASEL: A Transformer-Based Speech-Prefixed Language Model 论文阅读 前言好吧我又来更新sota 论文了 这个是多模态情感分析的sota 而且和第二名相差很大。摘要多模态语言分析是NLP的一个新兴领域,旨在同时建模说话人的单词语义、语音和面部表情。在这方面,语义通常优于其他模态,因为它们是通过基于Transformer的模型在大型语料库上预先训练的。尽管他们的表现很好,但由于数据不足,在任何模型上训练一个新的自监督学习(SSL)Transformer通常是不可能实现的,这在多模态语言学习中就是如此。这项工作提出了一个基于Transformer的语音前缀语言模型,
CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis 阅读笔记 前言多模态情感分析是一个新兴的研究领域,旨在使机器能够识别、解释和表达情感。通过跨模态交互,我们可以得到说话人更全面的情感特征。(BERT)是一种有效的预训练语言表示模型。然而,以往的研究大多只基于文本数据,如何通过引入多模态信息来学习更好的表示仍然值得探索。在本文中,我们提出了跨模态的BERT(CM-BERT),它依赖于文本和音频模态的交互来微调预先训练好的BERT模型。作为CM-BERT的核心单元,, masked multimodal attention 通过结合文本信息和音频模态信息来动态调整单
Transformer 参数量计算 参考https://blog.csdn.net/weixin_43922901/article/details/102602557前言参考文献从论文本身出发进行分析, 算出了Transformer参数量,但是也需要从源码实现来进行分析Transformer 源码class ScaledDotProductAttention(nn.Module): def __init__(self): super(ScaledDotProductAttention, self).__ini
【LeetCode】215. 数组中的第K个最大元素 快排class Solution {public: void back (vector<int>& nums, int left, int right, int k) { if (left >= right) { return; } int i = left, j = right, base = nums[left], tmp = 0; while (i <
【手把手】如何使用置信学习cleanlab对数据集进行去噪 前言在做一个项目的时候,发现数据集噪声非常多,项目是是一个文本分类问题, 但是数据集中经常出现 label 错误的情况, 也就是所谓的label noise问题,在这样的数据集对模型进行训练效果非常差。关于label noise感兴趣可以看 Noisy Label 20 篇论文纵览 ,也是一个研究的热门方向,且对于工业界意义很大。笔者在经过一些相关的调研之后, 从实现难度,教程数量, 原理理解这些方面角度,最终选取置信学习这种方式对数据集合进行去噪置信学习相关介绍那什么是置信学习呢?这个概念来自一
阅读笔记 Incremental Few-shot Text Classification with Multi-round New Classes: Formulation, Dataset and 阅读笔记 Incremental Few-shot Text Classification with Multi-round New Classes: Formulation, Dataset and System前言在训练一个文本分类模型对时候,通常是在一个预先处理好的固定类别的数据集中, 但是在实际应用中,文本的类别是不断变化的,可能会出现一批新的类别和对应的样本, 这就要求模型能够通过只通过一些新的 样本集,来准确识别新加入的类, 我们定义这种任务为:incremental few-shot t
Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis阅读笔记 文章目录Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis模型结构encodingRoutingPrediction实验Interpretation AnalysisMultimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis任务:多模
阅读笔记 MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis 文章目录1.前言2.模型结构2.1 Modality Representation Learning2.1.1 Utterance-level Representations2.1.2 Modality-Invariant and -Specific Representations2.2 Modality Fusion2.3 Learning2.3.1 Similarity Loss2.3.2 Difference Loss2.3.3 Reconstruction Loss2.3.4 Task Loss3.
Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network for Emotional 阅读笔记 文章目录1. 前言2. 模型结构2.1 Heterogeneous Graph-Based Encoder2.1.1 Graph Construction2.1.2 Graph Initialization2.1.3 Heterogeneous Graph Encoding2.1.4 Emotion Predictor2.2 Emotion-Personality-Aware Decoder3. 实验3.1 损失函数3.2 模型结果4. 总结4.1 模型贡献1. 前言 情感对话系统的成功取决于对情感的
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation阅读笔记 文章目录1. 前景介绍2. 模型结构2.1 编码器2.1.1 Multi-modal Graph2.1.2 Embedding Layer2.1.3 Graph-based Multi-modal Fusion Layers模态内融合**模态间融合**2.2 解码器3. 实验结果4. 模型评价4.1 模型的贡献1. 前景介绍这篇文章讲的是 多模态机器翻译首先把图和句子用一个统一多模态图来表示图结构如下每个结点包含,文本信息和图片信息图有两种边, 一种是相同模态相连的边, 一种是不同模态相连
Bi-modal first impressions recognition using temporally ordered deep audio and stochastic 阅读笔记 Bi-modal first impressions recognition using temporally ordered deep audio and stochastic visual features.本文提出了两种 双模态深度神经网络架构,它们具有两个分支,一个分支用于提取音频特征,另一个分支用于提取视觉特征。 在预处理原始视频数据之后,会生成模型的音频和视觉分支的输入。从两个分支提取的特征将进行融合,整个网络则是端到端训练的。数据预处理一个视频被分成多个不重叠的部分(子视频), 对于每个
Multimodal First Impression Analysis with Deep Residual Networks 阅读笔记 Multimodal First Impression Analysis with Deep Residual Networks前言这篇文章也算是一个老文章了,不过效果也非常好,准确率也在前三名之内,有必要读读它的模型结构以及特征方法,特别是他对于声音提取的方面好像有一些小创新,虽然是两个模块,但也有借鉴意义,模型结构以下是整个模型的一个流程图,通过,训练集进行训练得到一个模型,然后把被测试者的视频输入到模型中,得到它的个性分数以及是否是一个好的面试者(通过还是不通过)Audiovisual 模
A Personality traits and job candidate screening via analyzing facial videos 阅读笔记 A Personality traits and job candidate screening via analyzing facial videos前言这篇文章看起来对个性的提取的话,只提取了一个脸部特征,但是效果也不错,我们可以看到它的提取的脸部的人是如何提取的以及它的分类方法,从摘要中我们可以看到它是使用了支持向量机的回归,这种比较传统的回归方法。模型方法模型的整个流程如下图所示,总共包含三个方面,第1个是视觉特征提取,然后是个性回归,最后是面试分类,脸部预处理使用 Haar cas
Multi-modal Score Fusion and Decision Trees for Explainable Automatic Job Candidate Screening 阅读笔记 Multi-modal Score Fusion and Decision Trees for Explainable Automatic Job Candidate Screening from Video CVs这篇文章作为2017年的文章,其准确率非常之高,到2020年也只有一篇超过了它的准确率,所以我们确实需要去看一看这一篇的特征提取方法,以及它所用的融合方法和一些其他的结构模型结构视觉特征提取脸部特征对每一帧,使用人脸对齐方法 Supervised Descent Method, 提取