自然语言处理
qq_28935065
仰望星空,脚踏实地
展开
-
pytorch 模型训练的多GPU训练
pytorch针对多GPU训练提供了两个类来实现多GPU训练,分别是torch.nn.DataParallel和torch.nn.DataParallel相对比较简单,因此先介绍torch.nn.DataParallel。当使用torch.nn.DataParallel的时候,数据会分配到各个GPU中,完成前向计算,然后再汇总到主卡计算loss,进行反向传播。显然,这种方式会使得多个GPU之间负载不均衡。torch.nn.DataParallel具体的使用方法注意device_ids 为指定需要训练的原创 2022-06-27 14:29:44 · 1192 阅读 · 0 评论 -
BERT继续预训练任务之loss为nan
BERT继续预训练任务之loss为nan原创 2022-06-23 12:12:27 · 1453 阅读 · 0 评论 -
使用pke模块抽取中文关键短语所踩的坑
pke模块抽取中文关键短语注意事项原创 2022-04-07 12:11:23 · 1192 阅读 · 0 评论 -
语法纠错数据生成方法
语法纠错属于句子级的校对,需要检测并纠正句子中的错误,其中语法纠错目前已经公开的数据量不多,而现在解决语法纠错的问题主要是采用深度学习的模型,这些深度学习的模型需要大量的训练数据,因此本文总结了几种语法纠错数据生成的方法原创 2022-03-14 18:15:23 · 2048 阅读 · 1 评论 -
Language Model Pretrain 方法
现在pretrain- fine-tune模式已经成为了去解决NLP任务的常用方法,下面总结了一些常见的pretrain 方法原创 2022-03-14 11:35:48 · 1850 阅读 · 0 评论 -
transformers加载模型报错
当使用AutoModelForSeq2SeqLM加载模型时,报错RuntimeError: a view of a leaf Variable that requires grad is being used in an in-place operation.一开始以为是transformers版本的问题,换个各种版本之后还是不行(尝试transformers 3.0,3.4,4.0),然后将torch(之前的版本是1.9)的版本换为1.7错误就没有了...原创 2021-10-14 12:00:11 · 1278 阅读 · 0 评论 -
BERT基本原理是什么?
最近面试经常会被面试官问起,谈谈你对BERT的理解?你了解BERT吗?简单介绍一下BERT吧。虽然自己大概理解BERT的原理,但是表达的时候思路不够清晰 ,给面试官的感觉是似懂非懂,借此机会,想梳理一下应该怎么去表达,思路更清晰一些。大概的框架是:模型来源(提出北京)+名词解释+核心内容+模型效果+与之前模型的对比。BERT来源于Google的一篇名叫“pre-train of deep bidirectional transformer for langgue understanding”的论文,BE原创 2021-09-10 22:18:54 · 239 阅读 · 0 评论 -
BERT 中wordPiece的原理
1.为什么使用wordPiece?在BERT中,做数据预处理的时候,使用了wordPiece,所谓的wordPiece其实是把word再进一步的拆分,拆分为piece,得到更细粒度。而为什么使用wordPiece 而不直接使用word?比如如"loved","loving","loves"这三个单词。其实本身的语义都是“爱”的意思,但是如果我们以单词为单位,那它们就算作是不一样的词,在英语中不同后缀的词非常的多,就会使得词表变的很大,训练速度变慢,训练的效果也不是太好。2.wordPiece的实现算转载 2021-08-03 18:18:23 · 1941 阅读 · 0 评论 -
NLP领域文本增强
1.何为文本增强? 所谓的文本的增强,并不是简单的增加样本的“数量”,而是针对当前模型出现的问题,去产生有针对性的样本,原创 2021-06-11 15:53:44 · 417 阅读 · 1 评论 -
2020-12-26
给自己挖个坑,把NLP的知识扎实一下,附上TO DO LISTNLP TO DO LISTNLP发展历程 常见的激活函数 不同优化器之间的区别 Word2vec原理、损失函数、两种模型框架区别和联系 word2vec和fasttext的区别 word2vec和Bert区别 L1和L2区别(数学上和几何上) 传统机器学习算法原理 LR GBDT xgboost SVM CRF LSTM几个重要的公式和画图 BiLSTM+CRF 在NER中的损失函数是什么 At原创 2020-12-26 15:35:48 · 91 阅读 · 0 评论 -
自然语言处理领域国内外著名会议和期刊
转发来源:https://blog.csdn.net/lyb3b3b/article/details/83548964本文介绍自然语言处理(Natural Language Processing, NLP)领域的一些国内外著名会议和期刊。 自然语言处理(NLP)和计算语言学(Computational Linguistics, CL)有很多重合之处。国际会议ACL、EMNLP、NAAC...转载 2019-06-09 22:33:24 · 2176 阅读 · 0 评论