热爱文学的码农-CSDN博客

原创大学生综合服务平台

总的来说，使用Qt的WebEngine模块可以方便地实现一个校园门户网站浏览器，并提供一些常用的功能，如书签、历史记录等。通过合理使用Qt的界面设计工具、QAction、QMenu、QWebEnginePage、QWebEngineView、QWebEngineHistory等类，可以实现一个功能完备、易用、稳定的浏览器应用程序。

2023-05-26 21:11:20 416

论文还研究了多语言任务的微调，这些任务使用从英语翻译的提示来匹配每个数据集的语言，实验发现翻译的提示可以提高相应语言的人工提示的性能。LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合，LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B)，LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。

2023-04-21 17:40:28 1225 1

原创 ChatGPT介绍与理解

OpenAI的使命是确保通用人工智能（AGI）造福全人类，并致力于开发可以在多个领域解决广泛问题的高级AI工具。我们开发的AI模型之一是GPT，它是一种能够生成人类语言的强大神经网络。通过GPT-3，我们在语言翻译和机器写作等自然语言处理任务中实现了一系列突破。ChatGPT是一种基于GPT的下一代对话型AI，能够创建智能的、上下文感知的聊天和消息系统。ChatGPT被设计用于与各种通信平台无缝配合，允许它被集成到现有系统中并从各种交互中学习。

2023-03-10 12:48:55 8031

原创 InstructGPT:Pooled testing to isolate infected individuals

InstructGPT论文解读

2023-03-10 12:29:12 436

原创 On the Comparison of Popular End-to-End Models for Large Scale SpeechRecognition

最近自动语音识别从hybrid-model到i端到端的模型变得比较火。目前有三个做这样研究的比较火，第一个是RNN-T，recurrent neural network transducer。RNN attention-based encoder-decoder (AED), 和Transformer-AED一受欢迎的端到端模型简短介绍一下E2E模型：RNN-T，RNN-AED，以及transformer-AED。这些模型有...

2022-05-12 14:48:57 423

原创知识共享一：机器学习的可解释性

机器学习的Interpretability，或者是可解释的机器学习。模型在预测的时候，我们无法去判断模型进行预测的根据。这就说明了我们对于模型的要求在某一些领域达不到百分之百的信任，比如模型帮你做手术或者进行诊断。以及真正做到无人驾驶。有一些的翻译将可解释性翻译成explainability，有的也翻译成interpretability。但是其实两者有一定的差距，后者往往是指，使得模型成为白盒，能够很清楚的进行理解。前者的意义在于，能够让人们比较好的理解模型的黑盒行为。但是其实可解释性也不是让人

2022-05-11 14:02:33 403

原创 22. Asteroid: the PyTorch-based audio source separation toolkit for researchers

本文介绍了用于研究人员的基于pytorch的音频源分离工具包Asteroid。受到最成功的神经源分离系统的启发，它提供了建立这样一个系统所需的所有神经构建模块。为了提高再现性，还提供了常见音频源分离数据集的 Asteroid’s recipes。本文介绍了Asteroid的软件体系结构及其主要功能。通过展示实验结果获得的Asteroid’s recipes，可以看见我们的实验结果取得了比较好的效果。代码提供在github.com/mpariente/asteroid.目录1.介绍...

2022-05-02 15:53:48 1187 1

原创 21.VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

生成能够描述在字幕标注的训练数据中看不见的新对象的图像字幕是非常理想的，但也是具有挑战性的，这是在新对象字幕挑战(nocaps)中评估的能力。在这个挑战，没有额外的图像字幕训练数据，COCO字幕是允许的模型训练。因此，传统的视觉语言预训练(VLP)方法无法应用。本文提出了在没有字幕标注的情况下进行预训练的视觉词汇预训练(VIVO)。通过打破VLP中成对图像-标题训练数据的依赖关系，VIVO可以利用大量成对图像-标签数据来学习视觉词汇。这是通过对一个多层Transformer模型进行预训练来实...

2022-04-03 13:36:14 2621

原创 20:Learning a Self-Expressive Network for Subspace Clustering

State-of-the-art subspace clustering methods are based on the self-expressive model, which represents each data point as a linear combination of other data points. since the number of self-expressive coefficients grows quadratically with the numbe...

2022-03-10 15:50:51 5127

原创 19:nuScenes: A multimodal dataset for autonomous driving

1.介绍目标的鲁棒检测与跟踪是自动驾驶汽车技术发展的关键。基于图像的基准数据集推动了计算机视觉任务的发展，如目标检测、跟踪和环境中代理的分割。然而，大多数自动驾驶汽车都配有摄像头和测距传感器，如激光雷达和雷达。随着基于机器学习的检测和跟踪方法变得越来越流行，有必要在包含距离传感器数据和图像的数据集上训练和评估这些方法。在这项工作中，我们展示了nuTonomy场景(nuScenes)，这是第一个搭载全自动汽车传感器套件的数据集:6个摄像头、5个雷达和1个激光雷达，所有这些都具有360度的视场。n...

2022-03-09 20:21:28 2121

原创 18:(基于对抗的学习)Learning a Self-Expressive Network for Subspace Clustering

本文提出了一种对抗对比学习的方式，用对抗的思路end-to-end来直接学习负样本，在 ImageNet 和下游任务均达到 SOTA。1.Introduction在自监督学习的领域，对比学习在许多下游任务（分类任务、目标检测任务等）中都有很大的优势。在对比学习中，正样本和负样本是对比学习的关键，负样本的数量和质量决定了对比学习的效果。如何充分地利用负样本去提高在对比学习中的效果和效率是一个值得探索的方向。作者在 AdCo 中提出了一种新的方法，它不再像 MoCo V2..

2022-03-08 21:20:27 4318 1

原创 17:Oriented R-CNN for Object Detection

1.介绍不同方案生成定向proposals的比较。(a)旋转RPN密集放置不同尺度、比例和角度的旋转锚点。(b)水平RoI的RoI Transformer+学习型方案。它包括RPN、RoI对齐和回归。(c)我们建议的面向RPN以几乎零成本的方式产生高质量的建议。定向RPN的参数数约为RoI Transformer+的1/3000和旋转RPN的1/15。目前最先进的两级detector通过耗时的方案产生定向proposals。这降低了detector的速度，成为面向先进目标检测系统的.

2022-03-08 13:15:48 3671

原创 16:BERTQA -- Attention on Steroids

1.介绍本文从bert的transformer扩展了the Bidirectional Encoder Representations,强调了共同直接的coattention，此项研究提高了F1值（采用SQUAD2dataset ）我们在bert结构中添加了更多的attention在contexttoquery C2Q 以及querytocontext Q2C。我们发现coattention 极大提高了无答案的F1值在base版的四个方面，以及更大结构的一个方面。通过预训练文本...

2022-03-07 20:51:57 472

原创 15:Named Entity Recognition without Labelled Data: A Weak Supervision Approach

1.ner问题1.在目标域没有手工标记的数据时，NER怎么进行问题?2.研究的目标域因为没有标注数，不可作迁移学习？1.提出弱监督方案；依赖于广泛的标签函数来自动注释目标域的文本，然后使用Markov模型把这些标签整合在一起，把整合后的标注送入到最终的NER模型进行识别。做实验在实体层次上有7个百分点的提升。2.提出ws在没有标签数据的情况下去bootstrap（提升）NER模型；这个方法主要是依赖标注函数去标注，然后通过考虑标注的准确性与混淆性使用HMM模型统一这些带有nois

2022-03-07 10:25:10 796

原创 14:Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

1.介绍如图a所示，该模型可以用于时尚杂志的搜索。我们提出了一种新的VL预训练体系结构(Kaleido- bert)，它由Kaleido Patch Generator (KPG)、基于注意的对齐生成器(AAG)和对齐引导掩蔽(AGM)策略组成，以学习更好的VL特征embeddings。Kaleido-BERT在标准的公共Fashion-Gen数据集上实现了最先进的技术，并部署到在线系统(a)。我们提出了一种新的视觉语言(VL)预训练模型，称为kaleido - bert，它...

2022-03-06 17:18:56 631

原创 13.Sequence-to-Sequence Contrastive Learning for Text Recognition

1.介绍我们提出了一个视觉表示的序列-序列对比学习(SeqCLR)框架，并将其应用于文本识别。为了考虑序列到序列的结构，每个特征映射被划分成不同的实例，对这些实例进行对比损耗计算。这个操作使我们能够在子词级别进行对比，从每个图像中我们提取几个正对和多个负例子。为了产生有效的文本识别的视觉表示，我们进一步提出了新的增强启发式，不同的编码器架构和自定义投影头。在手写文本和场景文本上的实验表明，当文本解码器在学习的表示上进行训练时，我们的方法优于非顺序对比方法。此外，当监督量减少时，SeqCLR符号...

2022-03-01 21:46:56 1090

原创 12.UniT：Multimodal Multitask Learning with a Unified Transformer

1.动机 UniT，它通过统一transformer联合学习跨不同领域的多个任务。我们的UniT模型可以同时处理8个数据集上的7个任务，从对象检测到视觉和语言推理以及自然语言理解，同时通过紧凑的模型参数集实现每个任务的强大性能。我们提出了一个统一的transformer模型UniT，它可以同时学习跨不同领域的最重要的任务，从对象检测到自然语言理解和多模态推理。基于transformer编码器-解码器体系结构，我们的UniT模型用编码器对每个输入模态进行编码，并在编码输入表示...

2022-03-01 21:44:27 1223

原创 11:ERNIE-VIL:KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH

1.介绍为了学习图片和文本的联合表征,我们提出了知识增强的方法ERNIE-Vil, ERNIE-Vil尝试构建详细的语法连接(物体,属性,以及物体在视觉场景的关系)目前模型不区分常见词，本文将其分为object，attribute，relationship。1.1 OscarOscar是比较典型的单流结构，效果似乎很好，但我们需要比较每个 word 和图片的关系，灵活性似乎不足。2.2 CLIPCLIP 是双塔结构，图片和文本分别走两个塔，分别产出文本 embeddi..

2022-02-25 09:36:12 1743

原创 10：VISUAL-BERT

A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE1.abstact我们提出了Visual—bert，目的在于实现视觉语言任务，我们进一步提出了四个视觉语言任务，包括VQAvisual question an- swering，VCRvisual commonsense reasoning，NLVRnatural language for visual reasoning以及Flickr30kregion- to-phr...

2022-02-24 13:44:18 2884

原创 9:论文学习笔记九《BP-bert》

1.介绍近年来，多模态命名实体识别(multimodal named entity recognition, MNER)利用图像来提高推文命名实体识别的准确性。然而，大多数多模态方法使用注意机制来提取视觉线索，而不考虑文本和图像是否相关。实际上，不相关的文本-图像对在推文中占很大比例。与文本无关的视觉线索会对多模态学习产生不确定性甚至负面影响。本文在多模态BERT模型中引入一种文本-图像关系传播方法。我们整合软门或硬门来选择视觉线索，并提出一种多任务算法来训练MNER数据集。在实验中，我们深入分析了文本

2022-02-24 13:18:32 742

原创 8:MCCNN

Automatic Detection and Classification System of Domestic Waste via Multi- model Cascaded Convolutional Neural Network 基于多模型级联卷积神经网络的生活垃圾自动检测分类系统1.摘要:生活垃圾分类是我国最近才纳入法律规定的。然而，依靠人力来检测和分类生活垃圾是非常低效的。为此，我们提出了一种多模型级联卷积神经网络(MCCNN)，用于家用垃圾图像的检测和分类。MCCNN结合三个子网(

2022-01-24 19:10:31 3359

原创 4.2:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

1.Abstract 我们介绍了一种新的语言表示模型BERT，它表示转换器的双向编码器表示。与最近的语言表示模型不同(Peters et al., 2018; Radford et al., 2018)，BERT通过在所有层的上下文联合调节来预训练深层双向表示。因此，只需一个额外的输出层就可以对预先训练好的BERT表示进行微调，以便为各种任务创建最先进的模型，例如问答和语言推断，而无需基本的任务特定架构修改。 BERT概念简单，经验丰富。它在11项自然语言处理任务中获得了最新的技术成果，包括将...

2022-01-24 19:07:09 133

原创 6:UNIMO模型

Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learningcode：https://github.com/PaddlePaddle/ Research/tree/master/NLP/UNIMO.1.摘要存在的单模型和多模型任务彼此间不能很好的适应，本文提出了一种UNIMO来提高多模态的理解和生成任务。大量的图片和文本用来整合提高视觉和文本的理解。并且交...

2022-01-24 19:01:58 2547

原创 3:VideoBERT:A Joint Model for Video and Language Representation Learning

1.相关工作有监督的学习：一些最成功的视频表示学习方法利用了大量的标记数据集-来训练卷积神经网络进行视频分类。但是收集有标签的数据十分困难，此外，这些方法被设计用来表示短视频剪辑，通常只有几秒钟长。我们工作的主要不同之处在于，我们关注的是视频中事件的长期演变，我们不使用手动提供的标签。无监督学习：有些使用单一的静态随机变量，然后使用RNN“解码”成序列，要么使用VAE型损失，要么使用GAN型损失。最近的研究使用了时间随机变量，如SV2P模型和SVGLP模型。还有各种基于GAN的方法，如...

2022-01-20 11:08:19 1108

原创 2:VX2TEXT基于多模态输入的视频文本生成的端到端

1.网络大致架构原始名称为End-to-End Learning of Video-Based Text Generation From Multimodal Inputs这个框架可以帮助我们，从视频、音频等输入内容中提取信息，再以人类可以理解的文字，生成字幕或者回答问题等。直接贴图：给定相应需要实现的任务，比如说QA，以及捕捉要素的任务。根据视频形成Video Backbone，后根据每个视频词汇表不同的Distribution进行分类。对于语音来说的话，同理形成Audio Backbone

2022-01-15 15:47:15 2098

原创 1:MOST: A Multi-Oriented Scene Text Detector with Localization Refinement

1.介绍现代文本检测器能够捕捉各种不同挑战场景下的文本。然而，它们可能在处理极端横纵比和不同尺度时仍然检测不到文本实例为了处理这些困难，我们在本文中提出了一个新的场景文本检测的新算法，该算法提出了一系列策略显著地提高了文本定位的质量EAST，一个非常具有代表性的单级（one-stage）场景文字检测器，已经证实对极端横纵比的文本实例检测不行。（可以去查看一下EAST的论文）这有两个主要原因：1）网络的感受野...

2022-01-14 21:04:43 1336

原创 4:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 的自我理解

1.Abstract论文地址：https://arxiv.org/pdf/1810.04805.pdfBert最近很火，主要用于表示转换器的双向解码器表示。是一个预训练的语言表征模型。以往的方法都是采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练。bert采用的是masked language model（MLM），目前在NLP很多领域的预处理都采用了bert。并且很多都超过了原有模型的baseline，也就是达到了state-of-the-art。包括将GL...

2022-01-14 20:48:42 644

原创 5:DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

1.Abstract: DeepFM 并行形式（结合DNN+FM的模型）用于解决构建复杂特征组合的问题。CTR预测能够学习用户点击行为的背后的隐藏特征组合。（包含有低阶和高阶）。it is possible to derive an end-to-end learning model that emphasizes both low- and high- order feature interactions.证明DeepFM比现有模型的有效性和效率。2.DeepFM结构...

2021-12-07 09:12:47 291

原创 7:VATT 论文学习笔记

1.文章地址paper:https://arxiv.org/pdf/2104.111782.Motivation作者提出了一个使用无卷积transformer架构从无标签数据中学习多模态表示的框架。具体来说，Video-AudioText Transformer (VATT)将原始信号作为输入，并提取足够丰富的多模态表征，从而有利于各种下游任务(例如检测、分类、跟踪)。作者使用多模态对比损失从头到尾训练VATT，并通过视频动作识别、音频事件分类、图像分类和文本到视频检索等下游任务评估其性能。...

2021-12-06 10:49:54 4248 1

qq_41887799的博客