![f74b9566667b44285d9eea0f9ffcc250.png](https://img-blog.csdnimg.cn/img_convert/f74b9566667b44285d9eea0f9ffcc250.png)
【关于 NLP】 那些你不知道的事
作者:杨夕
项目地址: https:// github.com/km1994/nlp_p aper_study
个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
目录
- 【关于 NLP】 那些你不知道的事
- 目录
- 介绍
- 论文工具篇
- 会议收集篇
- NLP 学习篇
- 理论学习篇
- 经典论文研读篇
- transformer 学习篇
- 预训练模型篇
- 细粒度情感分析论文研读
- 主动学习论文研读
- 对抗训练论文研读
- 实体关系联合抽取论文研读:
- GCN 在 NLP 上的应用 论文研读:
- 命名实体识别论文研读:
- 关系抽取论文研读:
- 文本预处理
- 问答系统论文学习
- 文本摘要论文学习
- 文本匹配论文学习
- 机器翻译论文学习
- 文本生成论文学习
- 对话系统论文学习
- rasa 学习
- 视频学习篇
- 实战篇
- Elastrsearch 学习篇
- 推荐系统 学习篇
- 竞赛篇
- GCN_study学习篇
- ML 小白入门篇
- Java 实战篇
- 百度百科 ES 全文检索平台构建 实战篇
- 面试篇
- Leetcode 篇
- DeepLearning-500-questions
- 大数据 实战篇
- Spark 实战篇
- 资源篇
- CV 入门 实战篇
介绍
论文工具篇
- 问题
- 作为一名 scholar,你是否和我一样,在刚入门 NLP 时,对于陌生领域有种无从下手,心存畏惧?
- 作为一名 scholar,你是否还在发愁如何找好的论文?
- 作为一名 scholar,你是否还在为 自己 的 英文阅读 能力跟不上 很烦恼?
- 作为一名 scholar,你是否还在为 看到 一篇好paper,但是复现不出 code 而心累?
- 作为一名 scholar,你是否还在为 有Good idea,Outstanding Experimental results,Beautiful Chinese manuscript,结果 Bad English manuscript, Poor Journal 而奔溃?
- 作为一名 scholar,你是否在为搞科研没人交流而自闭?
- 当你看到这一篇文档,你将不在为这些问题而烦恼,因为我们为你准备了一整套免费的从 论文查找->论文翻译->论文理解->相关代码搜索->写英文稿->科研学术交流 的路径。
- 论文不会找怎么办?
- 顶会资讯
- 论文搜索和分析工具
- 外文读不懂怎么办?
- 论文翻译神器 ———— 通天塔
- 论文翻译小助手 ———— 彩云小译
- 外文没 code 怎么办?
- papers with code
- OpenGitHub 新项目快报
- 外文写起来麻烦怎么办
- Overleaf
- Authorea
- Code ocean
- 搞科研没人交流怎么办?
- Shortscience
- OpenReview
- Scirate
会议收集篇
- ACL2020
- SIGIR2020
NLP 学习篇
理论学习篇
经典论文研读篇
- 那些你所不知道的事
- 【关于Transformer】 那些的你不知道的事
- 【关于Bert】 那些的你不知道的事
transformer 学习篇
- transformer_study transformer 论文学习
- 【关于Transformer】 那些的你不知道的事
- Transformer-XL
- Single Headed Attention RNN: Stop Thinking With Your Head 单头注意力 RNN: 停止用你的头脑思考
- Universal Transformers
- Style_Transformer
- ACL2020_Linformer
预训练模型篇
- Bert_study:Bert论文研读
- 【关于Bert】 那些的你不知道的事
- 【关于 XLNet 】 那些你不知道的事
- 【关于 RoBERTa】 那些你不知道的事
- 【关于 ELECTRA 】 那些的你不知道的事
- 【关于 Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT】 那些你不知道的事
- 【关于 GRAPH-BERT】 那些你不知道的事)
- 【关于 Bert 模型压缩】 那些你不知道的事
- 【关于 Bert 压缩】 那些你不知道的事
- 【关于 AlBert 】 那些你不知道的事
- 【关于 FastBERT】 那些你不知道的事
- 【关于 distilbert】 那些你不知道的事
- 【关于 TinyBert】 那些你不知道的事
细粒度情感分析论文研读
- LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classification
主动学习论文研读
- Proactive Learning for Named Entity Recognition(命名实体识别的主动学习)
对抗训练论文研读
- FreeLB: Enhanced Adversarial Training for Language Understanding 加强语言理解的对抗性训练
实体关系联合抽取论文研读:
- Incremental Joint Extraction of Entity Mentions and Relations
- Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy
- GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
- A Novel Hierarchical Binary Tagging Framework for Relational Triple Extraction
GCN 在 NLP 上的应用 论文研读:
- GCN 在 NLP 上的应用 论文研读
命名实体识别论文研读:
- LatticeLSTM
- named entity recognition using positive-unlabeled learning
- GraphRel: Modeling Text as Relational Graphs for Joint Entity and Relation Extraction
- TENER: Adapting Transformer Encoder for Name Entity Recognition
- CrossWeigh从不完善的注释中训练命名实体标注器
- 利用词汇知识通过协同图网络进行中文命名实体识别
- 一点注释对引导低资源命名实体识别器有很多好处
- CGN: Leverage Lexical Knowledge for Chinese Named Entity Recognition via Collaborative Graph Network(EMNLP2019)
- Fine-Grained Entity Typing in Hyperbolic Space(在双曲空间中打字的细粒度实体)
- LR-CNN:CNN-Based Chinese NER with Lexicon Rethinking(IJCAI2019)
关系抽取论文研读:
- End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures【2016】
- ERNIE
- GraphRel
- R_BERT
- Task 1:全监督学习
- Relation Classification via Convolutional Deep Neural Network
- Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
- Relation Classification via Attention Model
- Task 2:远程监督学习
- Relation Classification via Convolutional Deep Neural Network
- NRE_with_Selective_Attention_over_Instances
文本预处理
- 过采样
问答系统论文学习
- Lattice CNNs for Matching Based Chinese Question Answering
- LSTM-based Deep Learning Models for Non-factoid Answer Selection
- Denoising Distantly Supervised Open-Domain Question Answering
- FAQ retrieval using query-question similarity and BERT-based query-answer relevance
- DC-BERT : DECOUPLING QUESTION AND DOCUMENT FOR EFFICIENT CONTEXTUAL ENCODING
文本摘要论文学习
- Fine-tune BERT for Extractive Summarization
- Pointer-Generator Networks 指针网络读书笔记
文本匹配论文学习
- Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks
- Simple and Effective Text Matching with Richer Alignment Features
- Deep Structured Semantic Model
- ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs
- Enhanced LSTM for Natural Language Inference
- Bilateral Multi-perspective Matching
- Densely Interactive Inference Network(DIIN)
机器翻译论文学习
- Neural Machine Translation of Rare Words with Subword Units 论文学习
文本生成论文学习
- 【关于 SLCVAE 安装 】那些你不知道的事
对话系统论文学习
- 【关于 Domain/Intent Classification 】那些你不知道的事
- 【关于 槽位填充 (Slot Filling)】那些你不知道的事
- 【关于 上下文LU】那些你不知道的事
- 【关于 自然语言生成NLG 】那些你不知道的事
- 【关于 DSTC 】那些你不知道的事
- 【关于 E2E 】那些你不知道的事
- 【关于 TC_Bot(End-to-End Task-Completion Neural Dialogue Systems) 】那些你不知道的事
rasa 学习
- 【关于 rasa 安装 】那些你不知道的事
- 【关于 rasa 基本架构 】那些你不知道的事
- 【关于 rasa中文对话系统】那些你不知道的事
- 【关于 rasa中文对话系统构建】那些你不知道的事
- 【关于 rasa->NLU 】那些你不知道的事
- 【关于 rasa -> Core -> FormAction 】那些你不知道的事
- 【关于 rasa -> Core -> Stories 】那些你不知道的事
- 【关于 rasa -> Core -> Action 】那些你不知道的事
视频学习篇
- CS224n 视频学习篇
- Lecture 1: Introduction and Word Vectors
- Lecture 2: Word Vectors and Word Senses
- Lecture 3: Word Window Classification, Neural Networks, and Matrix Calculus
- Lecture 4: Backpropagation
- Lecture 5: Dependency Parsing
- Lecture 6: Language Models and RNNs
- Lecture 7: Vanishing Gradients, Fancy RNNs
- Lecture 8: Translation, Seq2Seq, Attention
- Lecture 9: Practical Tips for Projects
- Lecture 10: Question Answering
- Lecture 11: Convolutional Networks for NLP
- Lecture 12: Subword Models
- Lecture 13: Contextual Word Embeddings
- Lecture 14: Transformers and Self-Attention
- Lecture 15: Natural Language Generation
- Lecture 16: Coreference Resolution
- Lecture 17: Multitask Learning
- Lecture 18: Constituency Parsing, TreeRNNs
- Lecture 19: Bias in AI
- Lecture 20: Future of NLP + Deep Learning
实战篇
- 爬虫 实战篇
- Scrapy 爬虫 实战篇:主要介绍使用 scrapy 构建网络爬虫,并爬去百度搜索引擎数据
- 特征提取 实战篇
- 关键词提取、关键短语提取、文本摘要提取 实战篇
- TF-idf 特征提取 实战篇
- pynlp 关键词提取 实战篇
- 词向量预训练 实战篇
- word2vec 词向量预训练 实战篇
- fasttext 词向量预训练 实战篇
- 中文情感分析 实战篇
- word2vec
- textCNN
- charCNN
- RCNN
- Bi-LSTM
- Bi-LSTM+Attention
- adversarialLSTM
- Transformer
- ELMo
- BERT
- 中文文本分类 实战篇
- Tensorflow 篇
- FastText
- TextCNN
- TextRNN
- TextRCNN
- BiLSTMAttention
- AdversarialLSTM
- Transformer
- pytorch 篇
- FastText
- TextCNN
- TextRNN
- TextRCNN
- BiLSTMAttention
- DPCNN
- AdversarialLSTM
- Transformer
- 命名实体识别 “史诗级” 入门教程
- HMM 做命名实体识别
- CRF 做命名实体识别
- BiLSTM-CRF 做命名实体识别
- IDCNN-CRF 做命名实体识别
- BERT-CRF 做命名实体识别
- ALBERT-CRF 做命名实体识别
- 知识图谱 实战篇
- KBQA-BERT
- 问答系统 实战篇
- 基于 百度问答 的问答系统
- 文本匹配 实战篇
- TextMatching
- TextMatch
- Text_Matching(文本匹配算法)
- 预训练模型 实战篇
- bert
- Chinese-PreTrained-XLNet
- 模型蒸馏 实战篇
- 基于BERT的蒸馏实验
Elastrsearch 学习篇
- Elastrsearch 学习
- ElasticSearch架构解析与最佳实践.md
推荐系统 学习篇
- 推荐系统 基础
- 【关于 推荐系统】那些你不知道的事
- 【关于 召回】那些你不知道的事
- 【关于 embedding召回】那些你不知道的事
- 【关于 协同过滤】那些你不知道的事
- 【关于 矩阵分解】那些你不知道的事
- 【关于 FM】那些你不知道的事
- 推荐系统 论文学习
- DeepFM 论文学习
- DeepWalk 论文学习
- ESMM 论文学习
- 【关于 FiBiNET】那些你不知道的事
- 【关于 DeepCF】那些你不知道的事
竞赛篇
- 竞赛篇
GCN_study学习篇
- GCN 介绍篇
- Graph 介绍
- Weisfeiler-Leman 算法介绍
- GCN 三剑客
- Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering
- SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS
- Attention Models in Graphs: A Survey
- 经典篇
- Can GNN go “online”?an analysis of pretraining and inference
- Graph Convolutional Networks for Text Classification
- HOW POWERFUL ARE GRAPH NEURAL NETWORKS
- Graph Convolutional Matrix Completion
- Representation Learning For Attributed Multiplex Heterogeneous Network
- 预训练篇
- GNN 教程:GCN 的无监督预训练
- Pre-training Graph Neural Networks
- 实战篇
- DGL
- DGL 入门
- DGL 入门 —— GCN 实现
ML 小白入门篇
- 【关于 Logistic Regression 】那些你不知道的事
- 概率图模型串烧 (HMM->MEMM->CRF)
- KNN 算法 学习篇
- 理论篇
- 实战篇
- 朴素贝叶斯算法 学习篇
- NB 算法理论学习
- NB 算法实现
- Apriori 算法 学习篇
- Apriori 算法理论学习
- Apriori 算法实现
- Softmax 算法学习篇
- Softmax 理论学习
- Softmax 算法实现
- Gradient Descent 算法学习篇
- GradientDescent 算法理论学习
- GradientDescent 算法实现
- 随机森林算法 学习篇
- RandomForest 算法理论学习
- RandomForest 算法实现
- 基于PCA 的 RandomForest 算法实现
- EM 算法学习篇
- SVM 算法学习篇
- SVN 算法理论学习
- SVM 算法学习篇
- SVN 算法实现
- BPNN 算法 学习篇
- BPNN 算法理论学习
- BPNN 算法实现
- PCA 算法 学习篇
- PCA 算法理论学习
- PCA 算法实现
- CNN 算法 学习篇
- 卷积运算的定义、动机
- 反卷积Deconvolution
- 池化运算的定义
- CNN 算法 numpy 实现
Java 实战篇
百度百科 ES 全文检索平台构建 实战篇
- 项目目标
- 实现一个 基于 百度百科 的 ES 全文检索平台
- 项目流程
- step 1: 编写 网络爬虫 爬取 百度百科 数据;
- step 2: 爬取数据之后,需要进行预处理操作,清洗掉 文本中噪声数据;
- step 3: 将输入 导入 ES ;
- step 4: 利用 python 编写 后台,并 对 ES 进行查询,返回接口数据;
- step 5: ES 数据前端展示;
- step 6: 百度百科 知识图谱构建
- step 7:百度百科 知识图谱检索与展示
- 数据介绍:
- 本项目通过编写爬虫爬取 百度百科 数据,总共爬取 名称、链接、简介、中文名、外文名、国籍、出生地、出生日期、职业、类型、中文名称、代表作品、民族、主要成就、别名、毕业院校、导演、制片地区、主演、编剧、上映时间 等400多个 指标,共爬取数据 98000 条。
- 数据预处理模块
爬取的数据根据名称可以分为 人物、地点、书籍、作品、综艺节目等。
| 类别 | 指标量 | 数量 | 筛选方式 | | :--------: | :----: | :----: | :----: | | 人物 | 109 | 27319 | 国籍、职业、出生日期、出生地有一个不为空 | | 地点 | 124 | 9361 | 地理位置、所属地区有一个不为空 | | 书籍 | 45 | 3336 | 作者 不为空 | | 作品 | 45 | 8850 | 主演为空,中文名称不为空 | | 综艺节目 | 108 | 5600 | 主演、导演都不为空 |
面试篇
Leetcode 篇
- 简单题
- 数组
- 链表
- 动态规划
- 字符串
- 栈
- 排序
- 二分查找
- 哈希表
- 队列
- 堆
- 回溯法
- 树
- 归并排序
- 快慢指针
- 贪心算法
- 递归
- 分治
- 分支限界法
- 位运算
- 滑动窗口
- 数学题
- 面试题
资源篇
- funNLP