NLP科研小白初梳理

《人工智能极简编程》

MachineIntellect/DeepLearner: AI精研社 超级原创 Learn Python and Deep Learning from scratch. 会用搜狗输入法 + chrome浏览器,就能学的会的 Python + 人工智能·机器学习·深度学习算法 的完整学习解决方案。 (github.com)


1.26 更新

任务列表:

整理现有资源

梳理知识树 不梳理了,在论文精读中逐个扫盲再整理

代码复现资源

一、 资源整理

    • 论文资源

    • 带代码的论文:

papers with code介绍(人工智能方向研究生的必备网站)

最新的机器学习|带代码的论文

官网地址: https://paperswithcode.com/

这个网站将ArXiv上的最新的人工智能的论文与GitHub上的代码对应起来,让我们既能看到最新的论文,也能看到论文算法对应实现的代码。

    • AI英文文献免费下载搜索引擎:

Semantic Scholar 介绍 被称为新Sci-Hub

https://www.medsci.cn/article/show_article.do?id=6597291e885d

官网网址:https://www.semanticscholar.org

学科范围:Semantic Scholar 几乎覆盖所有的学科领域。

文献类型:学术期刊、学术会议及学术机构的学术文献。

文献语种:目前主要是英语文献,将来可能支持其他语言。

Semantic Scholar 利用人工智能机器学习技术,从文献文本中挑选出最重要的关键词或短语,确定文献的研究主题,也可以从文献中提取图片和图表,呈现在文献检索页面,能够帮助使用者快速理解文献的主要内容。

对于科学研究人员来说,Semantic Scholar 的最大用处就是可以帮助研究人员快速获得重要文献,因为该引擎可以辨别一篇文章引用的参考文献是否具有重要的参考价值.

网站使用非常简单,只需输入关键词搜索即可得到目标文献。默认按相关性排序,还可选择按被引次数、最具影响力论文、时间排序。而且大多提供了全文可免费下载。

pdf图标上有一把打开的锁表示这些文献是“open access”类型的PDF。点击可直接下载pdf,或跳转到另一个可以下载pdf的网站上。

    • arXiv 预印本论文:

arXiv |美国科学学术论文搜索

官网地址: https://arxiv.org/

arXiv是一个始于1991年的老牌学术论文搜索引擎,由物理学家保罗.金斯巴格创建,致力于收集物理学、数学、计算机科学和生物学论文预印本的网站,收集的数据以达到百万篇。

目前arXiv文章类型主要分为七大类:物理、数学、非线性科学、计算机科学、定量生物学、定量金融学和统计。每个大类下面又分有若干子类,例如物理下面又具体分为:天体物理、凝聚态物理、广义相对论、量子宇宙学、高能物理:实验、高能物理:格点、高能物理:唯象、高能物理:理论、数学物理、核物理实验、核物理理论、普通物理和量子物理。文章类型内容分类非常专业和全面,arXiv上大约已有70万篇论文,每年以大约会收到7万5千篇论文的速度在不断增长。

arXiv的存在是造就科学出版业中所谓开放获取运动的因素之一,现今的一些数学家及科学家习惯先将其论文上传至arXiv,再提交予专业的学术期刊。这个趋势对传统学术期刊的经营模式造成了可观的冲击。

    • 论文写作工具

    • Mendeley 免费论文管理软件

可搜索全文

基本用法参考:https://zhuanlan.zhihu.com/p/271010871

官网地址: https://www.mendeley.com/

3. 数据集资源

书《》

中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html

本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。

具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。

项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch

谷歌最近的一项新的研究介绍了:一个人工标注的细粒度情绪数据集,其中包含 58k 条来自主要英语子版块的 Reddit 评论,并确定了28个情绪类别。它有 12 个正面、11 个负面、4 个模棱两可的情感类别和 1 个“中性”情感类别,使其广泛适用于需要在情感表现之间进行微妙区分的对话解释任务。

论文:GoEmotions: A Dataset of Fine-Grained Emotions.

链接:https://arxiv.org/pdf/2005.00547.pdf

二、 代码复现资源

对于NLPer来讲,每次顶会论文出来及时阅读、及时复现,及时获取最新的idea、创新点,掌握热门的研究方向,重要性不言而喻。

【论文复现赛】前沿顶会论文解读,精品项目合集! - 飞桨AI Studio (baidu.com)

飞桨论文复现打卡营课程:

飞桨AI Studio - 人工智能学习实训社区 (baidu.com)

手写数字的案例完全吃透:

百度架构师手把手带你零基础实践深度学习 - 飞桨AI Studio (baidu.com)

10篇经典论文篇目

1、ICLR2013,Word2Vec 词向量扛鼎之作

《Efficient Estimation of Word Representation in Vector Space》

2、EMNLP2014,Glove:最出名的词向量训练方法之一

《GloVe: Global Vectors for Word Representation》

3、EMNLP2015,Char Embedding 第一篇介绍字符嵌入的论文

《Compositional character models for open vocabulary word representation》

4、 MNLP2014,TextCNN 第一篇CNN用于文本分类的文章

《Convolutional Neural Network for Sentence Classification》

5、NIPS2015,CharTextCNN 第一篇字符级别文本分类模型

《Character-level Convolutional Networks for Text Classification》

6、EACL2017,FastText 细粒度的文本分类

《Bag of Tricks for Efficient Text Classification》

7、LSTM_NMT 使用LSTM解决机器翻译问题

《Sequence to Sequence Learning with Neural Networks》

8、ICLR2015,Bahdanau_NMT 第一篇介绍attention的论文

《Neural Machine Translation by Jointly Learning to Align and Translate》

9、NAACL2016,Han_Attention attention用于文本分类

《Hierarchical Attention Networks for Document》

10、Coling2018,SGM 第一篇使用序列生成做多标签文本分类

《SGM: Sequence Generation Model for Multi-label Classification》

那这些论文要怎么学习才能又好又快地吃透呢?

无非三个步骤:泛读、精读、代码复现。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值