NLP
文章平均质量分 93
囚生CY
越活越明白,越活越糊涂。
展开
-
【论文阅读】基于层级关系的词向量:双曲空间词嵌入
2. 背景: 庞加莱嵌入 Background: Poincare Embeddings双曲几何是非欧空间中一类的负曲率空间二维双曲线空间可以用单位圆盘(open unit disk)表示, 即所谓庞加莱圆盘(Poincare disk)推广到多维空间圆盘模型就升级成庞加莱球庞加莱球: {x∈Rn∣ ∣∣x∣∣<1}\{x∈R^n |\space||x||<1\}{x∈Rn∣ ∣∣x∣∣<1} 其中∣∣x∣∣||x||∣∣x∣∣是欧式距离u,v两点距离:原创 2020-09-09 18:56:55 · 12850 阅读 · 1 评论 -
【论文阅读】自然语言生成(NLG)——基于plan思想的Data2Text任务实现
论文标题:Step-by-Step: Separating Planning from Realization in Neural Data-to-Text Generation论文下载地址:https://arxiv.org/abs/1904.03396项目地址:https://github.com/AmitMY/chimeraStep-by-Step: Separating Planning from Realization in Neural Data-to-Text Generation论原创 2020-09-07 21:06:17 · 11453 阅读 · 1 评论 -
【项目小结】训练BERT模型加入到深度学习网络层中——keras_bert库使用填坑指南
1 前言BERT模型的使用可以分为两种形式:第一种使用方法直接将语句序列输入BERT模型获取特征表示,BERT模型一共提供十二层不同的特征向量输出,随层数的递进,特征表示从专于词义表示到专于语义表示而有所区别,此时BERT模型相当于静态的word2vector模型,仅用于特征表示,关于如何获取BERT预训练模型及如何使用第一种方法,可以参考我的博客https://blog.csdn.net/C...原创 2020-04-21 11:32:55 · 16067 阅读 · 7 评论 -
【项目小结】python读取arpa数据文件(arpa库使用)
arpa库是用于读取arpa数据文件的python包,由于涉及领域很小,截至本文发布,笔者尚未搜索到有关详尽的教程,因此初次接触arpa数据文件后,没有意识到数据格式问题,单纯通过统计分析得到了一些规律特征,希望能转为常见的csv格式数据文件方便使用,直到发现该包后解析源码得到了简洁的用法,供遇到同样问题朋友以参考。arpa 数据文件格式arpa数据文件是典型的用于存储n-grams模型参...原创 2020-04-14 22:11:05 · 13028 阅读 · 1 评论 -
【项目小结】GEC模型中的难点:分词(Tokenizer)与回译(Backtranslation)
前排提示本文涉及的数据集及外部文件在以下链接共享。包括 Lang-8 语料库,词形转换表(涉及79024组变换)与一些有用的pickle文件。链接:https://pan.baidu.com/s/1fW266ZSLoZeEaRCl2yVQCg 提取码:yfhm 序言GEC模型的概念及解决方案可以参考我之前写的一些论文提纲,但无论采用什么样的解决思路,都绕不开很多瓶颈性的问题。...原创 2020-03-19 01:30:28 · 12209 阅读 · 2 评论 -
【论文阅读】W19-4423——预训练与迁移学习在GEC的应用
本文依然在CONLL2014的最新进展网站上可以下载获得https://nlpprogress.com/english/grammatical_error_correction.html与以前的方法有所创新的地方在于,本文着重使用了预训练的语言模型,并且采取了Denoising AutoEncoders(DAEs)方法,取得的效果是极其卓越的。并且在本文对应的代码中(在上面的网址中有Githu...原创 2019-12-30 22:31:44 · 11008 阅读 · 1 评论 -
【论文阅读】D18-1274——GEC模型优化的一种方法:使用质量评估模型
GEC的效果依然很差,所以有些人开始思考避免盲目调参地如何提升模型效果。一个很直观的方法是观察模型输出与真人标注的区别,因此引出Quality Estimation(质量评估)。本文同样来自https://nlpprogress.com/english/grammatical_error_correction.html当前第五名的报告。Neural Quality Estima...原创 2019-12-24 21:04:36 · 11447 阅读 · 1 评论 -
【论文阅读】D19-1435——GEC问题解决的一种方法:PIE架构
发现把所有的论文提纲写在一篇博客里我自己翻起来也很难受,干脆还是一篇论文一篇博客了。跟之前很多使用神经机器翻译(NML)不一样的是,本文使用了一种PIE架构,Parallel Iterative Edit Models,与普通的seq2seq问题相比,这种建模是seq2edits,与其他方法确实有创新之处,并且目前在CONLL2014排行榜上雄踞第四,虽然前三都是NML方法做的,但是这种PIE...原创 2019-12-23 22:25:58 · 12028 阅读 · 1 评论 -
【项目小结】英语语法错误检测(GEC)开题论文阅读记录
毕业论文准备尝试一下GEC,虽然没有过这方面的经验,但做老生常谈的课题实在是亏待宝贵的最后一年。其实最主要的原因是莫名奇妙被一个从来没上过课的教授加微信翻了牌子,我看了一下他给出的题目:英语句法分析、英语用词错误检测,文本摘要、文本阅读理解,还有一个乱入的野生动物识别,我自己觉得很有兴趣也非常具有挑战性,他让我自己选一个,我觉得后面三个思路相对单纯一些,可能就是seq2seq的模型和图片识别的问题...原创 2019-10-29 19:15:45 · 13780 阅读 · 2 评论 -
【项目小结】某B视频网站的爬虫实践
最近忽来兴致,准备做评论数据的NLP项目。选定了某B视频网站的评论数据,顺带准备把某B视频网站的数据爬虫也一起做了。关于登录验证的问题可以看我的博客https://blog.csdn.net/CY19980216/article/details/89074771,不过目前登录方式稍微有点不同,因为验证图片不太方便获取了,我尝试了后觉得只能通过截图的方式才能拿到,如此鲁棒性较差。而且由于也无法获取到...原创 2019-07-15 09:16:48 · 14220 阅读 · 1 评论 -
【日常】自然语言处理小结
最近疲于找实习,今天总算有着落了,找了家小私募学学投资策略。主要不想去那些打杂混水的咸鱼岗混个实习证明,这份确实是一个很有压力的工作,希望自己能够胜任并能学到点东西。整理一下最近的自然语言处理的东西,也算是给期末project写report打个草稿了。kaggle比赛链接https://www.kaggle.com/c/quora-insincere-questions-classific...原创 2018-12-22 22:10:02 · 11801 阅读 · 5 评论