自然语言处理基础
文章平均质量分 87
主要介绍有关NLP的基础内容,相对于其他涉及到NLP的专栏,本专栏更加关注基础知识,例如词向量、Attention原理、NLP数据增强与对抗、相关理论等
华师数据学院·王嘉宁
研究方向:深度学习、自然语言处理、知识图谱。
研究兴趣:大语言模型训练与推理、知识增强预训练、Prompt-tuning、小样本学习、问答系统、信息抽取。
展开
-
SteerLM_ Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF
为了确保获得多样化的response,首先从用于训练的带注释数据集中枚举一组所有可能的attribute value组合。另外,RLHF的偏好没有考虑细粒度的Aspect(例如helpfulness, humor, toxicity),不同的Apsect对偏好的贡献是不同的;例如 生成高quality的文本、或者生成高humor的文本,或者生成同时具备quality、humor、helpfulness的文本等。大模型在做偏好对齐的时候,传统的RLHF需要耗费大量的资源。每一轮对话后,在Assistant。原创 2024-07-29 22:52:13 · 871 阅读 · 0 评论 -
【小样本实体识别】Few-NERD——基于N-way K-shot的实体识别数据集和方法介绍
介绍Few-NERD数据集,以及基于N-way K-shot的实体识别任务定义。对核心代码进行展示,并介绍目前的研究进展和baseline对比实验。原创 2022-06-28 15:42:38 · 3317 阅读 · 0 评论 -
【HuggingFace轻松上手】基于Wikipedia的知识增强预训练
本文介绍基于entity masking的知识增强预训练语言模型的实现,以及在几个下游任务微调的方法。本文分享核心代码实现和相关数据。原创 2022-06-27 15:12:29 · 3343 阅读 · 3 评论 -
【EasyNLP】带你轻松玩转CLUE榜单
EasyNLP正式发布!EasyNLP是一款基于Pytorch的易用、简单、高效的深度学习NLP开发框架。目前已经正式被CLUE作为官方刷榜baseline工具。原创 2022-06-10 17:08:04 · 898 阅读 · 3 评论 -
NLP常用损失函数代码实现——SoftMax/Contrastive/Triplet/Similarity
NLP常用损失函数代码实现 NLP常用的损失函数主要包括多类分类(SoftMax + CrossEntropy)、对比学习(Contrastive Learning)、三元组损失(Triplet Loss)和文本相似度(Sentence Similarity)。其中分类和文本相似度是非常常用的两个损失函数,对比学习和三元组损失则是近两年比较新颖的自监督损失函数。 本文不是对损失函数的理论讲解,只是简单对这四个损失函数进行了实现,方便在模型实验中快速嵌入损失函数模块。为了能够快速直观地看到损失函数的执原创 2022-03-23 20:19:13 · 3924 阅读 · 2 评论 -
NLP几种常用的对抗训练方法
NLP几种常用的对抗训练方法 对抗训练本质是为了提高模型的鲁棒性,一般情况下在传统训练的基础上,添加了对抗训练是可以进一步提升效果的,在比赛打榜、调参时是非常重要的一个trick。对抗训练在CV领域内非常常用,那么在NLP领域如何使用呢?本文简单总结几种常用的对抗训练方法。 对抗训练旨在对原始输入样本 xxx 上施加扰动 radvr_{adv}radv,得到对抗样本后用其进行训练:公式理解:最大化扰动:挑选一个能使得模型产生更大损失(梯度较大)的扰动量,作为攻击;最小化损失:根据最大原创 2022-02-07 15:27:58 · 7607 阅读 · 5 评论 -
基于word2vec的中文词向量训练
基于word2vec的中文词向量训练一、引言 在绝大多数的自然语言处理任务中,语料是无法直接用来特征提取,需要将其转化为计算机可以读取的数值,因此引入独热编码,即对于语料库中为每一个词汇设置编号。在大语料中这种做法具有很多缺点,因此在2013年Mikolov等人发表的论文《Efficient Estimation of Word Representation in Vector Space》...原创 2019-02-20 10:38:30 · 9346 阅读 · 13 评论 -
Pytorch使用LSTM实现Movie Review数据集情感分析
Pytorch使用LSTM实现Movie Review数据集情感分析 入门Pytorch一周时间,周六试着手写情感分类代码。学过Tensorflow的都知道,其需先生成计算图,还得通过placeholder喂入数据,十分的麻烦,也不容易调试,而pytorch真心是简单上手,最开心的就是Tensorflow不能随时打印中间结果,而Pytorch完美实现了~~啰嗦两句,很建议大家先学习tensor...原创 2020-03-29 01:00:21 · 4029 阅读 · 6 评论 -
NLP简单的数据增强方法
NLP简单的数据增强方法 当训练数据量不充分,或者分布单一的情况下,数据增强可以快速扩充语料以避免过拟合的问题,同时,数据增强也可以提升模型的鲁棒性,避免微弱的变化使得模型无法泛化到相似的语境中。 本文介绍几种比较简单但常用的NLP数据增强方法,包括显式和隐式两个方面,在实验或比赛中可以提升效果。可使用nlpaug工具快速实现这些技术。一、动机机器学习和深度学习在包括文本分类等自然语言任务达到不错的效果,但他们需要依赖于大规模的标注数据,除了直接使用小样本学习外,显式数据增强格外有效;数据原创 2021-11-30 11:11:37 · 1869 阅读 · 0 评论