作者:杨夕
项目地址: https:// github.com/km1994/nlp_p aper_study
个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
目录
- 论文工具篇
- 会议收集篇
- ML 小白入门篇
- NLP 学习篇
- 理论学习篇
- 经典论文研读篇
- transformer 学习篇
- 预训练模型篇
- NLP 经典任务篇
- 细粒度情感分析论文研读
- 主动学习论文研读:
- 对抗训练论文研读:
- 实体关系联合抽取论文研读:
- GCN 在 NLP 上的应用 论文研读:
- 命名实体识别论文研读:
- 关系抽取论文研读
- 文本预处理
- 问答系统论文学习
- 文本摘要论文学习
- 文本匹配论文学习
- 视频学习篇
- CS224n 视频学习篇
- 实战篇
- 爬虫 实战篇
- 特征提取 实战篇
- 词向量预训练 实战篇
- 中文情感分析 实战篇
- 中文文本分类 实战篇
- 命名实体识别 “史诗级” 入门教程
- 知识图谱 实战篇
- 问答系统 实战篇
- 文本匹配 实战篇
- 预训练模型 实战篇
- 模型蒸馏 实战篇
- GCN_study学习篇
- Java 实战篇
- 百度百科 ES 全文检索平台构建 实战篇
- 面试篇
- Leetcode 篇
- DeepLearning-500-questions
- 大数据 实战篇
- 资源篇
- CV 入门 实战篇
介绍
论文工具篇
- 问题
- 作为一名 scholar,你是否和我一样,在刚入门 NLP 时,对于陌生领域有种无从下手,心存畏惧?
- 作为一名 scholar,你是否还在发愁如何找好的论文?
- 作为一名 scholar,你是否还在为 自己 的 英文阅读 能力跟不上 很烦恼?
- 作为一名 scholar,你是否还在为 看到 一篇好paper,但是复现不出 code 而心累?
- 作为一名 scholar,你是否还在为 有Good idea,Outstanding Experimental results,Beautiful Chinese manuscript,结果 Bad English manuscript, Poor Journal 而奔溃?
- 作为一名 scholar,你是否在为搞科研没人交流而自闭?
- 当你看到这一篇文档,你将不在为这些问题而烦恼,因为我们为你准备了一整套免费的从 论文查找->论文翻译->论文理解->相关代码搜索->写英文稿->科研学术交流 的路径。
- 论文不会找怎么办?
- 顶会资讯
- 论文搜索和分析工具
- 外文读不懂怎么办?
- 论文翻译神器 ———— 通天塔
- 论文翻译小助手 ———— 彩云小译
- 外文没 code 怎么办?
- papers with code
- OpenGitHub 新项目快报
- 外文写起来麻烦怎么办
- Overleaf
- Authorea
- Code ocean
- 搞科研没人交流怎么办?
- Shortscience
- OpenReview
- Scirate
- 论文不会找怎么办?
会议收集篇
- ACL2020
ML 小白入门篇
- 概率图模型串烧 (HMM->MEMM->CRF)
- KNN 算法 学习篇
- 理论篇
- 实战篇
- 朴素贝叶斯算法 学习篇
- NB 算法理论学习
- NB 算法实现
- Apriori 算法 学习篇
- Apriori 算法理论学习
- Apriori 算法实现
- Softmax 算法学习篇
- Softmax 理论学习
- Softmax 算法实现
- Gradient Descent 算法学习篇
- GradientDescent 算法理论学习
- GradientDescent 算法实现
- 随机森林算法 学习篇
- RandomForest 算法理论学习
- RandomForest 算法实现
- 基于PCA 的 RandomForest 算法实现
- EM 算法学习篇
- SVM 算法学习篇
- SVN 算法理论学习
- SVM 算法学习篇
- SVN 算法实现
- BPNN 算法 学习篇
- BPNN 算法理论学习
- BPNN 算法实现
- PCA 算法 学习篇
- PCA 算法理论学习
- PCA 算法实现
- CNN 算法 学习篇
- 卷积运算的定义、动机
- 反卷积Deconvolution
- 池化运算的定义
- CNN 算法 numpy 实现
NLP 学习篇
理论学习篇
经典论文研读篇
- 那些你所不知道的事
- 【关于Transformer】 那些的你不知道的事
- 【关于Bert】 那些的你不知道的事
transformer 学习篇
- transformer_study transformer 论文学习
- 【关于Transformer】 那些的你不知道的事
- Transformer-XL
- Single Headed Attention RNN: Stop Thinking With Your Head 单头注意力 RNN: 停止用你的头脑思考
- Universal Transformers
- Style_Transformer
- ACL2020_Linformer
预训练模型篇
- bert_study:Bert论文研读
- 【关于Bert】 那些的你不知道的事
- XLNet Generalized Autoregressive Pretraining for Language Understanding
- RoBERTa: A Robustly Optimized BERT Pretraining Approach
- A lite BERT for self-supervised learning of language representations
- FastBERT
- distilbert
NLP 经典任务篇
- 细粒度情感分析论文研读
- LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classification
- 主动学习论文研读:
- Proactive Learning for Named Entity Recognition(命名实体识别的主动学习)
- 对抗训练论文研读:
- FreeLB: Enhanced Adversarial Training for Language Understanding 加强语言理解的对抗性训练
- 实体关系联合抽取论文研读:
- Incremental Joint Extraction of Entity Mentions and Relations
- Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy
- GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
- A Novel Hierarchical Binary Tagging Framework for Relational Triple Extraction
- GCN 在 NLP 上的应用 论文研读:
- GCN 在 NLP 上的应用 论文研读
- 命名实体识别论文研读:
- LatticeLSTM
- named entity recognition using positive-unlabeled learning
- GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
- TENER: Adapting Transformer Encoder for Name Entity Recognition
- CrossWeigh从不完善的注释中训练命名实体标注器
- 利用词汇知识通过协同图网络进行中文命名实体识别
- 一点注释对引导低资源命名实体识别器有很多好处
- CGN: Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network(EMNLP2019)
- Fine-Grained Entity Typing in Hyperbolic Space(在双曲空间中打字的细粒度实体)
- LR-CNN:CNN-Based Chinese NER with Lexicon Rethinking(IJCAI2019)
- 关系抽取论文研读:
- End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures【2016】
- ERNIE
- GraphRel
- R_BERT
- Task 1:全监督学习
- Relation Classification via Convolutional Deep Neural Network
- Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
- Relation Classification via Attention Model
- Task 2:远程监督学习
- Relation Classification via Convolutional Deep Neural Network
- NRE_with_Selective_Attention_over_Instances
- 文本预处理
- 过采样
- 问答系统论文学习
- Lattice CNNs for Matching Based Chinese Question Answering
- LSTM-based Deep Learning Models for Non-factoid Answer Selection
- Denoising Distantly Supervised Open-Domain Question Answering
- 文本摘要论文学习
- Fine-tune BERT for Extractive Summarization
- 文本匹配论文学习
- Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks
- Simple and Effective Text Matching with Richer Alignment Features
视频学习篇
- CS224n 视频学习篇
- Lecture 1: Introduction and Word Vectors
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 2: Word Vectors and Word Senses
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 3: Word Window Classification, Neural Networks, and Matrix Calculus
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 4: Backpropagation
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 5: Dependency Parsing
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 6: Language Models and RNNs
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 7: Vanishing Gradients, Fancy RNNs
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 8: Translation, Seq2Seq, Attention
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 9: Practical Tips for Projects
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 10: Question Answering
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 11: Convolutional Networks for NLP
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 12: Subword Models
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 13: Contextual Word Embeddings
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 14: Transformers and Self-Attention
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 15: Natural Language Generation
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 16: Coreference Resolution
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 17: Multitask Learning
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 18: Constituency Parsing, TreeRNNs
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 19: Bias in AI
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
- Lecture 20: Future of NLP + Deep Learning
- slides
- official notes
- youtube video
- bilibili video
- 问题解答区
实战篇
- 爬虫 实战篇
- Scrapy 爬虫 实战篇:主要介绍使用 scrapy 构建网络爬虫,并爬去百度搜索引擎数据
- 特征提取 实战篇
- 关键词提取、关键短语提取、文本摘要提取 实战篇
- TF-idf 特征提取 实战篇
- pynlp 关键词提取 实战篇
- 词向量预训练 实战篇
- word2vec 词向量预训练 实战篇
- fasttext 词向量预训练 实战篇
- 中文情感分析 实战篇
- word2vec
- textCNN
- charCNN
- RCNN
- Bi-LSTM
- Bi-LSTM+Attention
- adversarialLSTM
- Transformer
- ELMo
- BERT
- 中文文本分类 实战篇
- Tensorflow 篇
- FastText
- TextCNN
- TextRNN
- TextRCNN
- BiLSTMAttention
- AdversarialLSTM
- Transformer
- Tensorflow 篇
- pytorch 篇
- FastText
- TextCNN
- TextRNN
- TextRCNN
- BiLSTMAttention
- DPCNN
- AdversarialLSTM
- Transformer
- 命名实体识别 “史诗级” 入门教程
- HMM 做命名实体识别
- CRF 做命名实体识别
- BiLSTM-CRF 做命名实体识别
- IDCNN-CRF 做命名实体识别
- BERT-CRF 做命名实体识别
- ALBERT-CRF 做命名实体识别
- 知识图谱 实战篇
- KBQA-BERT
- 问答系统 实战篇
- 基于 百度问答 的问答系统
- 文本匹配 实战篇
- TextMatch
- Text_Matching(文本匹配算法)
- 预训练模型 实战篇
- bert
- Chinese-PreTrained-XLNet
- 模型蒸馏 实战篇
- 基于BERT的蒸馏实验
GCN_study学习篇
- GCN 介绍篇
- Graph 介绍
- Weisfeiler-Leman 算法介绍
- GCN 三剑客
- Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering
- SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
- Attention Models in Graphs: A Survey
- 经典篇
- Can GNN go “online”?an analysis of pretraining and inference
- Graph Convolutional Networks for Text Classification
- HOW POWERFUL ARE GRAPH NEURAL NETWORKS
- Graph Convolutional Matrix Completion
- Representation Learning For Attributed Multiplex Heterogeneous Network
- 预训练篇
- GNN 教程:GCN 的无监督预训练
- Pre-training Graph Neural Networks
- 实战篇
- DGL
- DGL 入门
- DGL 入门 —— GCN 实现
Java 实战篇
百度百科 ES 全文检索平台构建 实战篇
- 项目目标
- 实现一个 基于 百度百科 的 ES 全文检索平台
- 项目流程
- step 1: 编写 网络爬虫 爬取 百度百科 数据;
- step 2: 爬取数据之后,需要进行预处理操作,清洗掉 文本中噪声数据;
- step 3: 将输入 导入 ES ;
- step 4: 利用 python 编写 后台,并 对 ES 进行查询,返回接口数据;
- step 5: ES 数据前端展示;
- step 6: 百度百科 知识图谱构建
- step 7:百度百科 知识图谱检索与展示
- 数据介绍:
- 本项目通过编写爬虫爬取 百度百科 数据,总共爬取 名称、链接、简介、中文名、外文名、国籍、出生地、出生日期、职业、类型、中文名称、代表作品、民族、主要成就、别名、毕业院校、导演、制片地区、主演、编剧、上映时间 等400多个 指标,共爬取数据 98000 条。
- 数据预处理模块
爬取的数据根据名称可以分为 人物、地点、书籍、作品、综艺节目等。
| 类别 | 指标量 | 数量 | 筛选方式 | | :--------: | :----: | :----: | :----: | | 人物 | 109 | 27319 | 国籍、职业、出生日期、出生地有一个不为空 | | 地点 | 124 | 9361 | 地理位置、所属地区有一个不为空 | | 书籍 | 45 | 3336 | 作者 不为空 | | 作品 | 45 | 8850 | 主演为空,中文名称不为空 | | 综艺节目 | 108 | 5600 | 主演、导演都不为空 |
面试篇
Leetcode 篇
- 简单题
- 74. 搜索二维矩阵
- 88. 合并两个有序数组
- 136. 只出现一次的数字
- 240. 搜索二维矩阵 II
- 50. Pow(x, n)【[leetcode]](https://leetcode-cn.com/problems/powx-n/)】 【简单】
- 118. 杨辉三角 I【[leetcode]](https://leetcode-cn.com/problems/pascals-triangle/)】 【简单】
- 119. 杨辉三角 II【[leetcode]](https://leetcode-cn.com/problems/pascals-triangle-ii/)】 【简单】
- 数组
- 350. 两个数组的交集 II
- 1. 两数之和
- 56. 合并区间
- 152. 乘积最大子序列
- 217. 存在重复元素
- 238. 除自身以外数组的乘积
- 在一个未排序的整型数组中,如何找到最大和最小的数字?
- 283. 移动零
- 287. 寻找重复数
- 334. 递增的三元子序列
- 349. 两个数组的交集
- 350. 两个数组的交集 II
- 836. 矩形重叠
- 118. 杨辉三角
- 119. 杨辉三角 II
- 1431. 拥有最多糖果的孩子 【简单】【leetcode】
- 面试题29. 顺时针打印矩阵 【简单】【leetcode】
- 14. 最长公共前缀 【简单】【leetcode】
- 链表
- 思路汇总
- 在未排序链表中,怎样移除重复的节点?
- 在一次遍历中,怎样发现单个链表的中间元素?
- 链表实现
- 21. 合并两个有序链表
- 141. 环形链表
- 21. 合并两个有序链表
- 160. 相交链表
- 234. 回文链表
- 328. 奇偶链表
- 23. 合并K个排序链表
- 25. K 个一组翻转链表
- 动态规划
- 思路汇总
- 只需借鉴 上一步 (定义变量类型)
- 介绍
- 此类题型的特点在于,当前位置的取值,仅与前一个位置相关,与其他位置无关,所以只需定义一个变量保存前一个值即可;
- 类型题介绍
- 53. 最大子序和 【简单】
- 198. 打家劫舍 【leetcode】 【简单】
- 面试题46. 把数字翻译成字符串 【leetcode】 【中等】
- 需要借鉴之前步骤(定义数组类型)
- 介绍
- 此类题型的特点在于,当前位置的取值,不仅与前一个位置相关,而且与其他位置相关, 所以需定义一个长度为 len+1 的向量保存之前所计算得到的值;
- 类型题介绍
- 300. 最长上升子序列 【中等】
- 139. 单词拆分 【中等】
- 983. 最低票价 【中等】
- 70. 爬楼梯 【简单】
- 需要借鉴之前步骤(定义矩阵类型)
- 介绍
- 此类题型的特点在于,当前位置的取值,不仅与前一个位置相关,而且与其他位置相关, 而且该问题需要 上升 到 矩阵层次上考虑,所以需定义一个矩阵保存之前所计算得到的值;
- 类型题介绍
- 221. 最大正方形 【中等】
- 0-1 背包问题
- 介绍
- 此类题型的特点在于元素要么取,要么不取
- 类型题介绍
- 416. 分割等和子集 【中等】
- 介绍
- 未分类
- 在未排序链表中,怎样移除重复的节点?
- 牛妹的蛋糕
- 887. 鸡蛋掉落
- 0-1背包问题
- 322. 零钱兑换
- 面试题10- I. 斐波那契数列
- 62. 不同路径
- 63. 不同路径 II
- 837. 新21点 【中等】 【leetcode】
- 字符串
- 思路汇总
- 5. 最长回文子串
- 125. 验证回文串
- 242. 有效的字母异位词
- 387. 字符串中的第一个唯一字符
- 466. 统计重复个数
- 1371. 每个元音包含偶数次的最长子字符串
- 3. 无重复字符的最长子串
- 栈
- 思路汇总
- 150. 逆波兰表达式求值
- 155. 最小栈
- 394. 字符串解码 【leetcode】【中等】
- 394. 字符串解码 【leetcode】【中等】
- 739. 每日温度【leetcode】【中等】
- 排序
- 思路汇总
- 插入排序
- 快速排序
- 376. 摆动序列
- 二分查找
- 思路汇总
- 15. 三数之和
- 18. 四数之和
- 33. 搜索旋转排序数组
- 162. 寻找峰值
- 1095. 山脉数组中查找目标值
- 11. 盛最多水的容器
- 面试题 08.11. 硬币
- 神奇数字 【牛客网】 【难度:1】
- 69. x 的平方根 【[leetcode]](https://leetcode-cn.com/problems/median-of-two-sorted-arrays/)】 【困难】
- 4. 寻找两个正序数组的中位数 【[leetcode]](https://leetcode-cn.com/problems/sqrtx/)】 【简单】
- 1300. 转变数组后最接近目标值的数组和 【[leetcode]](https://leetcode-cn.com/problems/sum-of-mutated-array-closest-to-target/)】 【中等】
- 哈希表
- 思路汇总
- 171. Excel表列序号
- 454. 四数相加 II
- 面试题56 - I. 数组中数字出现的次数
- 141. 环形链表
- 560. 和为K的子数组
- 1. 两数之和
- 1010. 总持续时间可被 60 整除的歌曲 【leetcode】【简单】
- 队列
- 思路汇总
- 239. 滑动窗口最大值
- 347. 前 K 个高频元素
- 621. 任务调度器
- 933. 最近的请求次数
- 堆
- 思路汇总
- 堆排序
- 215. 数组中的第K个最大元素
- 295. 数据流的中位数
- 378. 有序矩阵中第K小的元素
- 回溯法
- 思路汇总
- 22. 括号生成
- 46. 全排列
- 79. 单词搜索
- 131. 分割回文串
- 200. 岛屿数量
- 212. 单词搜索 II
- 980. 不同路径 III
- 98. 验证二叉搜索树 【中等】
- 140. 单词拆分 II 【困难】
- 210. 课程表 II 【leetcode】【中等】
- 1028. 从先序遍历还原二叉树 【leetcode】【困难】
- 树
- 思路汇总
- 树构建
- 面试题28. 对称的二叉树
- 104. 二叉树的最大深度
- 110. 平衡二叉树
- 111. 二叉树的最小深度
- 112. 路径总和
- 113. 路径总和 II
- 129. 求根到叶子节点数字之和
- 230. 二叉搜索树中第K小的元素
- 236. 二叉树的最近公共祖先
- 257. 二叉树的所有路径
- 297. 二叉树的序列化与反序列化
- 563. 二叉树的坡度
- 归并排序
- 思路汇总
- 面试题51. 数组中的逆序对
- 快慢指针
- 思路汇总
- 202. 快乐数
- 283. 移动零 【简单】
- 贪心算法
- 思路汇总
- 45. 跳跃游戏 II
- 递归
- 思路汇总
- 分治
- 思路汇总
- 分支限界法
- 思路汇总
- 210. 课程表 II 【leetcode】【中等】
- 126. 单词接龙 II 【leetcode】【困难】
- 位运算
- 思路汇总
- 136. 只出现一次的数字
- 滑动窗口
- 思路汇总
- 76. 最小覆盖子串
- 数学题
- 思路汇总
- 976. 三角形的最大周长 【简单】
- 990. 等式方程的可满足性 【中等】
- 面试题
- 美团 2020 年春招
- 携程 2020 年春招
DeepLearning-500-questions
大数据 实战篇
Spark 实战篇
- 1、wordCount
- 内容:运行原理,RDD设计,DAG,安装与使用
- 第1章 Spark的设计与运行原理(大概了解)
- 1.1 Spark简介
- 1.2 Spark运行架构
- 1.3 RDD的设计与运行原理
- 1.4 Spark的部署模式
- 第2章 Spark的安装与使用(主要内容)
- 2.1 Spark的安装和使用 (如果想在window上安装,参考https://blog.csdn.net/SummerHmh/article/details/89518567,之后可以用pyspark或者jupyter上进行学习)(地址有问题,可以使用这个https://www-eu.apache.org/dist/spark/spark-2.4.3/)
- 2.2 第一个Spark应用程序:WordCount
- 2、RDDStudy
- 内容:RDD编程,熟悉算子,读写文件
- 第3章 Spark编程基础
- 3.1 Spark入门:RDD编程
- 3.2 Spark入门:键值对RDD
- 3.3 Spark入门:共享变量(提升-分布式必备)
- 3.4 数据读写
- 3.4.1 Spark入门:文件数据读写
- 3、sparkSQLStudy
- 内容:DataFrame,SparkSQL
- 第4章
- 4.1 Spark SQL简介
- 4.2 DataFrame与RDD的区别
- 4.3 DataFrame的创建
- 4.4 从RDD转换得到DataFrame
- 4、Parquet_JDBC_IO_Study
- 5、MLlibStudy
- 内容:MLlib流设计,特征工程
- 第6章 Spark MLlib
- 6.1 Spark MLlib简介
- 6.2 机器学习工作流
- 6.2.1 机器学习工作流(ML Pipelines)
- 6.2.2 构建一个机器学习工作流
- 6.3 特征抽取、转化和选择
- 6.3.1 特征抽取:TF-IDF
- 6.3.4 特征变换:标签和索引的转化
- 6.3.5 特征选取:卡方选择器
资源篇
- funNLP