NLP论文慢递
文章平均质量分 73
可能不止nlp
塞外花岗岩
哥们充满希望与爱,每天三碗大米饭
展开
-
CSC近年论文分析总结
中文拼写纠错近年方法总结原创 2022-01-31 00:21:40 · 334 阅读 · 0 评论 -
论文慢递4:CSC论文分享_PointerNetwork_ACL2019
Confusionset-guided Pointer Networks for Chinese Spelling Check背景主要方法encoderdecoder实验结果结论讨论背景CSC很重要;任务存在特殊性,与MT等生成式不同,输入与输出大部分相同;因此生成策略如下:copy输入从混淆集选择(相比词表减少搜索空间)主要方法seq2seq架构;encoder采用一个双向LSTM进行编码hjs=BiLSTM(hi−1s,eis)h_j^s=BiLSTM(h_{i-1}^s,e原创 2022-01-23 01:33:23 · 901 阅读 · 0 评论 -
论文慢递3: CSC论文分享_FASPell_EMNLP2019
目录FASPell(EMNLP2019)背景主要方法DAE部分decoder部分数据集相似度筛选方案实验结果结论FASPell(EMNLP2019)背景目前方法存在的问题:过拟合匮乏的中文拼写错误数据集依赖存在缺陷且不灵活的混淆集判断相似性本文贡献:提出一个用于CSC的新框架:DAE-decoder提出一种更精确的描述单词相似性的方法提出一个实践有效的解码方案提高召回关于标题:FastAdaptableSimplePowerful主要方法结构图DAE部分鉴于原创 2022-01-21 23:41:25 · 1139 阅读 · 0 评论 -
论文慢递2:PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction
目录abstract方法模型结构基于混淆集的掩码策略嵌入层Encoder层Output层训练方法finetuneabstract将拼写错误知识加入到预训练掩码语言模型,使用修正混淆集来代替预测掩码,加入语音级和字形级信息来辅助模型学习纠错;方法模型结构将拼音与笔画加入embedding层辅助基于混淆集的掩码策略相较于bert直接MASK,采用混淆集辅助MASK,通过形近和音近字进行掩码使模型纠错有的放矢;除此之外,为了增加模型鲁棒性,还有概率进行随机掩码;为了防止模型总是倾向于纠错,也有概原创 2021-09-06 23:54:32 · 847 阅读 · 1 评论 -
论文慢递1:Combining Self-Training and Self-Supervised Learning for Unsupervised Disfluency Detection
目录前言模型方法伪数据训练teacher模型伪数据训练grammaticality judgment模型训练student模型实验&实验结果英文(作者)数据集介绍dev集上结果test集上结果select消融实验中文(复现)伪数据的构造目前的结果总结前言当前文本顺滑任务基于昂贵的标注语料,本文提出了一种基于半监督的noise student training方法可以通过无标注语料进行学习,且结果与当前的有监督模型(Bert、Electra)相比表现也有一定竞争性;ASR任务中的输出结果往往原创 2021-09-04 16:14:57 · 474 阅读 · 1 评论