chu227-CSDN博客

原创 transformer-APAS训练Model完整源码实现

第47章：TAPAS训练Model完整源码实现1，calculate_aggregation_logits源码完整实现分析2，calculate_aggregation_loss_known源码完整实现分析3，calculate_expected_result源码完整实现分析4，calculate_regression_loss源码完整实现分析5，calculate_aggregate_mask源码完整实现分析6，compute_classification_logits源码完整实现

2021-11-16 15:04:34 1767

原创 Transformer-构建open-domain chatbot的Transformer模型Blenderbot架构及完整源码实现

第45章：构建open-domain chatbot的Transformer模型Blenderbot架构内幕及完整源码实现1，poly-encoder architecture数学原理及实现详解2，Dialogue Retrieval常见实现方式分析3，Dialogue Retrieval通用数学原理解析4，Knowledge Retrieval常见实现方式分析5，Knowledge Retrieval通用数学原理解析6，Blenderbot的Retriever设计和实现机制7，

2021-11-16 15:03:26 423

原创星空对话机器人-Transformer-为Open Domain Long Form Question Answering而设计的Transformer模型RetriBERT架构及完整源码实现

第41章：为Open Domain Long Form Question Answering而设计的Transformer模型RetriBERT架构内幕及完整源码实现1，Sparse Retrieval数学原理及工程实践分析2，Trained Dense Retriever数学原理剖析3，RetriBertConfig解析4，RetriBertTokenizer源码完整实现分析5，embed_questions源码完整实现分析6，embed_answers源码完整实现分析7，em

2021-11-16 15:02:02 1479

原创星空对话机器人-Transformer-可运行在终端设备的Transformer模型MobileBERT架构及完整源码实现

第37章：可运行在终端设备的Transformer模型MobileBERT架构内幕及完整源码实现1，Compact BERT on resource-limited设备上2，teacher model数学原理解析3，MobileBertTokenizer源码完整实现分析4，load_tf_weights_in_mobilebert源码完整实现分析5，NoNorm源码完整实现分析6，MobileBertEmbeddings源码完整实现分析7，MobileBertAttention源

2021-11-16 14:57:08 275

原创 Transformer-过滤掉sequential redundancy对Transformer模型Funnel-Transformer架构及完整源码实现

第33章：过滤掉sequential redundancy对Transformer模型Funnel-Transformer架构内幕及完整源码实现1，Transformer网络中的redundancy 产生的本质原因剖析2，不同类型pooling operation数学原理解析3，对sentence进行single-vector presentation不同类型实现技术解析4，对Transformer的hidden states的处理方式分析5，对reduced hidden sequen

2021-11-16 14:55:18 429

原创轻量级Transformer模型ConvBERT架构及完整源码实现

第28章：使用Local dependency轻量级Transformer模型ConvBERT架构内幕及完整源码实现1，BERT依赖global self-attention而带来的问题分析2，BERT不同Layer的computation redundancy分析3，使用local dependency的数学原理分析4，local dependency的工程实践5，convolution head数学原理剖析6，构建mixed attention block分析7，ConvBe

2021-11-16 14:53:35 2379

原创基于Transformer的NLP智能对话机器人26-27章

第26章：跨语言Cross-linagual预训练模型XLM架构内幕及完整源码实现1，cross-lingual pretraining背后的数学原理剖析2，XLM中CLM设计内幕和数学原理解析3，XLM中MLM设计内幕和数学原理解析4，XLM 中TLM设计内幕和数学原理解析5，XLMTokenizer源码实现解析6，XLMWithLMHeadModel源码实现解析7，XLMPredLayer源码实现解析8，XLMModel源码实现解析9，XLMPreTrainedMod

2021-11-15 19:01:34 1512

原创人工智能-Tansformer-全套讲解15-20章

第21章：基于Bayesian Theory的MRC文本理解基础经典模型算法详解1，Bayesian prior在模型训练时候对Weight控制、训练速度影响等功能详解2，Bayesian prior能够提供模型训练速度和质量的数学原理剖析3，从Word2vec走向GloVe：从Local 信息走向Global+Local信息表示模式4，GloVe 中的Vector相关性算法5，GloVe的Co-occurrence matrix解析6，GloVe的Loss计算7，神经网络表达信

2021-11-15 18:39:46 2001

原创 Transformer 综合讲解15-20章

第15章: Question Generation综合案例源码、测试及调试1，从Text到Multiple choice question数学原理、使用的Transformer知识、架构设计1，自动生成错误的问题选项2，使用GPT2自动生成对错二分类的问题3，使用Transformer生成多选题目4，使用Transformer自动生成完形填空题目5，使用Transformer基于特定内容生成问题6，完整案例调试分析7，使用fastAPI部署、测试Transformer案例

2021-11-15 18:33:41 413 1

原创 transformer-让你从底层知原理

第6章: BERT Pre-training模型源码完整实现、测试、调试及可视化分析1，词典Vocabulary库构建多层级源码实现及测试2，Dataset加载及数据处理源码完整实现及测试和调试3，Next Sentence Prediction机制源码完整实现及测试4，Masked Language Model机制中80%词汇Masking源码实现5，Masked Language Model机制中10%词汇随机替换和10%词汇保持不变源码实现6，Masked Language M

2021-11-15 18:31:29 201

原创 transformer-Autoencoding Language Models数学原理及模型架构解析

1，Auto-encoding Language Models通用数学原理详解2，为何要放弃采用Feature-Based语言模型ELMo而使用Fine-tuning模型？3，双向语言模型：both left-to-right and right-to-left不同实现及数学原理解析4，深度双向语言模型背后的数学原理及物理机制5，Unsupervised Fine-tuning训练模型架构及数学原理解析6，Transfer Learning数学原理及工程实现详解7，MLM(Maske

2021-11-14 17:27:03 702

原创 transformer-Autoregressive Language Models之GPT-1、2、3解析及GPT源码实现

1，Task-aware的人工智能Language model + Pre-training + Fine-tuning时代2，Decoder-Only Stack数学原理及架构解析3，训练材料标注：neutral、contradiction、entailment、multi-label、QA等4，NLP(Natural Language Understanding)：Semantic similarity、document classification、textual entailment等

2021-11-14 17:25:50 829

原创 Transformer XL源码实现

1，人工智能中最重要的公式之一MLE数学本质剖析及代码实战2，Language Model的数学原理、Chain Rule剖析及Sparsity问题3，Markov Assumption：first order、second order、third order剖析4，Language Model：unigram及其问题剖析、bigram及依赖顺序、n-gram5，使用Unigram训练一个Language Model剖析及实践6，使用Bigram训练一个Language Model剖析及

2021-11-14 17:23:17 354

原创 Transformer-通过30+个细分模块完整实现Transformer论文源码及项目调试

1，Transformer源码训练及预测整体效果展示2，模型训练model_training.py代码完整实现3，数据预处理data_preprocess.py代码完整实现4，Input端Embeddings源码完整实现5，Attention机制attention.py代码完整实现6，Multi-head Attention机制multi_head_attention.py代码完整实现7，Position-wise Feed-forward源码完整实现8，Masking 在Enc

2021-11-14 17:20:43 335

原创 NLP on Transformers 101

第1章: 贝叶斯理论下的Transformer揭秘1，基于Bayesian Theory，融Hard Attention、Soft Attention、Self-Attention、Multi-head Attention于一身的Transformer架构2，为什么说抛弃了传统模型（例如RNN、LSTM、CNN等）的Transformer拉开了非序列化模型时代的序幕？3，为什么说Transformer是预训练领域底层通用引擎？4，Transformer的Input-Encoder-Deco.

2021-11-14 17:18:26 110

原创 nlp面试-深度学习以及算法39问，方便你度过面试难关

为了方便大家更好的学习和提问，特建立微信群深度学习 L3 深度学习有没有用到归一化？用到了什么归一化？归一化的操作是什么？有什么作用？深度学习 L3 数据不均匀对模型训练有什么影像，数据分布不均匀的问题怎么解决深度学习 L3 bert的架构是什么目标是什么输入包括了什么三个embedding输入是怎么综合的深度学习 L3 transformer里面每一层的主要构成有哪些深度学习 L3.

2021-11-13 16:29:13 260

原创 nlp面试-学习神经网络以及机器学习39问

为了方便大家更好的学习和提问，特建立微信群，神经网络 L2 fasttext模型的结构，模型中的优点神经网络 L2 复杂结构模型和简单结构模型的优缺点神经网络 L2 推导softmax的求导过程神经网络 L2 神经网络激活函数有几种，各有什么优缺点神经网络 L2 时序数据选择怎么样的模型处理神经网络 L2 简单介绍一下为什么可以选择交叉熵作为损失函数，交叉熵损失函数的求导神经网络 L2.

2021-11-13 16:22:27 65

原创 Transformer是AI时代的芯片，你对Transformer知多少，尝试下回答下面的问题，也欢迎聆听免费课

nlp技术范围难度等级问题描述文本表示 L1 什么是词嵌入文本表示 L1 词嵌入的实现方式文本表示 L1 NLP中的文本表示方法有几种文本表示 L1 NLP中文本分布式表示文本表示 L1 介绍一下wordvector的实现方式文本表示 L1 Word2vec的两种训练目标是什么其中skip-gram训练的loss function是什么文本表示 L2 使用Wor..

2021-11-09 17:44:33 465

chu227的博客