文献阅读
文章平均质量分 81
各种文献阅读记录
Flying Warrior
以NLP为任务驱动,深入思考数学问题和方法,尝试对AI社区做出一点点贡献。
展开
-
关于 句子向量 和 词向量 的想法
Motivation:在很多地方都在讨论,句子级别和字符级别。这两者,在实际操作中到底有什么区别呢?通常来说,句子级别是[CLS] 或者 字符级向量的avg max等等。或者说是一些特殊的组合。那这些向量到底有什么区别以及会带来多少信息上的不同。从本人角度来看,我更想知道的是,句子的向量是不是比字符的embedding有更多的句子层次的信息。虽然,暂时没有见到相关的讨论,但也有很多文章对该问题进行了说明。Sentence bert主要做的事情:实验说明了mean pooling的效果比较原创 2021-09-06 14:43:03 · 396 阅读 · 0 评论 -
文献阅读--Scaling Laws for Neural Lauguage Models
预印本2020https://arxiv.org/pdf/2001.08361.pdf做了什么:从实验上调查,语言模型loss和众多因素的关系,这些因素包括:模型架构,网络模型的size,用来训练的算力,可以用来train模型的有效的数据量。语言任务的high ceiling 和 low floor 导致可以有七个orders of magnitude in scale。结论的一个总结:模型的performance strongly depends on scale ( para-data-co原创 2021-06-12 17:35:11 · 2178 阅读 · 1 评论 -
文献阅读-CSC-Confusionset-guided Pointer Networks for Chinese Spelling Check
Confusionset-guided Pointer Networks for Chinese Spelling Check作者:Tencent Cloud AI时间:2019年会议:ACL-2019论文地址简述:输入:数据集-正确句子-错误句子-location–混淆集-M怎么做:一个网络判断训练并判断哪个地方是错的-pointed-network,然后,正确的就赋值过去,错误的就在混淆集里面选,不过选的时候,因为seq2seq的encode是一个一个预测的,所以,这个时候,混淆集的选择,原创 2021-03-15 17:13:24 · 1065 阅读 · 5 评论 -
文献阅读-图像-论文搜集
Transformer在CV论文搜集:《An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale》ICLR 2021 under reviewEnd-to-end object detection with transformersRethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Trans原创 2021-03-01 13:40:43 · 185 阅读 · 1 评论 -
文献阅读笔记--GAN--Generative Adversarial NetworkGAN的原始论文-组会讲解
Generative Adversarial Network作者:Ian Goodfellow论文地址Arxiv:https://arxiv.org/abs/1406.2661统计公式一原创 2021-02-21 17:59:44 · 1079 阅读 · 1 评论 -
文献阅读笔记-CSC-Chunk-based Chinese Spelling Check with Global Optimization-翻译+模型理解
摘要:CSC是一个有挑战性的任务,因为中文有许多独特的特点,比如:很大的字符集,没有词语边界,很短的词语长度。一方面:之前的工作只是考虑了相似的字符发音或者形状,不能够纠正视觉和发音上不相关的错别句。另一方面:各种pipeline-style 结构被广泛运用,这是十分难以优化的。为了解决这个问题,我们提出,1.用语义候选来扩充之前的混淆集合。2.提出一个基于块的结构去统一的纠正,单个字和多个字。3.运用一个全局最优策略去加强一个句子级别的纠正选择。(word:中文中的词,char:中文中的原创 2021-02-04 17:55:17 · 1138 阅读 · 4 评论 -
文献阅读-CSC-中文错别字-有关论文搜集-+CGED
2020:CYUT Team Chinese Grammatical Error DiagnosisSystem Report in NLPTEA-2020 CGED SharedTask.任务:中文语法错误诊断系统数据集:NLPTEA2020 CGED shared task方法:提出两个方法,第一个是CRF和BERT结合。第二个是CRF方法文章链接(科技部资助)...原创 2021-02-03 15:19:53 · 2329 阅读 · 0 评论 -
文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check
A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记一、做了什么和怎么做的(很简单)初读的理解:这篇论文做的事情,就是给CSC任务提供数据,做了一个该任务下的数据生成。做法:大量无标注数据,根据 形近似和音近似 两个方面来替换其中的一部分字符。形近:把一个字转化为图片,把图片模糊一部分,用OCR对她进行扫描,选出识别错误的,去进行替换。音近:收集普通话演讲语料和演讲,用ASR对演讲进行原创 2021-01-27 09:49:49 · 2076 阅读 · 5 评论