NLP Bootcamp(完结)
文章平均质量分 91
NLP训练营,B站自己白嫖
https://www.bilibili.com/video/av86991001?p=405已失效
oldmao_2000
人工不智能,机器不学习。
展开
-
番外.3.情感计算与情绪识别
文章目录实例代码数据集代码重新再复习一下NLP,把一些内容以番外的内容记录一下。本节实现一个简单的情感技术与情绪识别模型。公式输入请参考:在线Latex公式实例代码数据集用的是ISEAR数据,github上面搜索可以找到下载链接。joy,“On days when I feel close to my partner and other friends.When I feel at peace with myself and also experience a closecontact wi原创 2021-05-17 14:22:07 · 601 阅读 · 0 评论 -
番外.2.词性标注by Viterbi
文章目录数据格式说明模型公式推导目标描述Noisy Channel Model代码实现重新再复习一下NLP,把一些内容以番外的内容记录一下。本节使用维比特算法来实现了一个英文单词词性标注的模型。公式输入请参考:在线Latex公式数据格式说明数据是一个txt文件,里面包含很多句子,然后按单词(包括标点符号)进行了分词,然后每个词后面对应该词的词性。一个词在不同的语句中词性可能是不一样的。贴一部分:Still/RB,/,massive/JJinternal/JJdebt/NNhas/VBZ原创 2021-05-15 18:48:23 · 306 阅读 · 0 评论 -
番外.1.Python高级用法
Lambda表达式Lambda表达式又被称之为匿名函数格式lambda 参数列表:函数体def add(x,y): return x+y print(add(3,4))#上面的函数可以写成Lambda函数add_lambda=lambda x,y:x+y add_lambda(3,4)map函数函数就是有输入和输出,map的输入和输出对应关系如下图所示:就是要把一个可迭代的对象按某个规则映射到新的对象上。因此map函数要有两个参数,一个是映射规则,一个是可迭代对象。1ist原创 2021-05-14 18:40:12 · 2347 阅读 · 24 评论 -
01[NLP训练营]自然语言处理介绍
·自然语言处理介绍·什么是NLP?NLP=NLU+NLG·NLU(Nature language understanding):语音/文本一>意思(meaning),这个是下面NLG的基础。·NLG(Nature language generation):意思一>文本/语音现在的问题:1、Multiple Ways to Express(多种表达方式)例如:这个训练营还...原创 2020-02-22 18:38:32 · 1145 阅读 · 1 评论 -
02[NLP训练营]递归算法复杂度
文章目录·归并排序以及Master Theorem·P,NP,NP hard,NP complete 问题·斐波那契数的计算时间复杂度空间复杂度·递归实现·循环实现·问答系统介绍公式输入请参考:在线Latex公式·归并排序以及Master Theorem归并排序直接看数据结构了解什么意思,后面的主定理是专门用来算递归算法的复杂度的方法,具体看这里:Master—Theorem 主定理的证明...原创 2020-02-23 19:00:09 · 277 阅读 · 0 评论 -
03[NLP训练营]文本处理(上)
文章目录Word Segmentation常见工具Segmentation Method 1:Max Matching(最大匹配)前向最大匹配(forward-max matching)后最大匹配(backward-max matching)Max Matching(最大匹配)的缺点Segmentation Method 2:Incorporate Semantic(考虑语义)缺点Word Seg...原创 2020-02-25 15:23:37 · 569 阅读 · 0 评论 -
04[NLP训练营]文本处理(下)
文章目录Word Representation独热编码Sentence Representation(boolean)Sentence Representation(Count )Sentence Similarity例子Tf-idf Representation小结Word Representation独热编码这个很简单,稍微带过词典:[我们,去,爬山,今天,你们,昨天,跑步]7个词,7...原创 2020-02-25 19:24:58 · 430 阅读 · 1 评论 -
05[NLP训练营]词向量
文章目录Distributed RepresentationLearn Word Embeddings词向量可视化From Word Embedding to Sentence Embedding平均法 averageLSTM/RNN(后面介绍)Distributed Representation分布式表示法不依赖于词典,向量里面都是非零的数据,解决了one-hot向量表示的稀疏性和向量长度...原创 2020-02-26 17:18:59 · 280 阅读 · 0 评论 -
06[NLP训练营]倒排表&Noisy Channel Model
文章目录RecapHow to Reduce Time Complexity?Introducing Inverted IndexRecap之前讲过要做一个问答系统,其构架如上图所示,但是有一个问题,就是每次提问后要去计算问题与知识库中每一个问题的相似度,再给出相应的答案,时间复杂度为O(N)O(N)O(N),如果知识库中的记录比较多(N=108∼109N=10^8\sim10^9N=108...原创 2020-02-26 19:10:49 · 459 阅读 · 0 评论 -
07[NLP训练营]语言模型
文章目录Language Model IntroductionLM 的目标Chain Rule for Language ModelMarkov AssumptionLM计算实例(based 1st order)Language Model:UnigramLanguage Model:BigramLanguage Model:N-gram估计语言模型的概率Unigram:Estimating Pr...原创 2020-02-27 18:12:27 · 665 阅读 · 0 评论 -
08[NLP训练营]动态规划实例
文章目录Dynamic Programming |定义例子1:最大子序和例2:最长上升子序列例3:零钱兑换例4:0-1背包问题公式输入请参考:在线Latex公式Dynamic Programming |定义1、问题目标2、状态的定义:opt[n](也就是拆解为子问题)3、状态转移方程:opt[n]=best_of(opt[n-1],opt[n-2]…)所有例子均来自力扣。例子1:最大...原创 2020-02-28 10:43:56 · 253 阅读 · 0 评论 -
09[NLP训练营]基于语言模型生成句子
文章目录生成模型例子公式输入请参考:在线Latex公式生成模型当一个模型训练好后,我们可以利用这个模型来生成一些数据,就是生成模型。例如:生成句子,音乐,图像,程序等。当然还有判别模型。例子假如上图是我们的词库,然后每一个词对应的概率已经训练好了,然后用Unigram来生成一个句子:由于Unigram是不考虑上下文的,所以这个句子完全就随机根据单词的概率取的下一个词。下面看Bi...原创 2020-02-28 15:21:13 · 1494 阅读 · 0 评论 -
10[NLP训练营]专家系统与基于概率统计学习
文章目录Two Main Branches of LearningTwo Main Branches of Learning专家系统(expert system)IF CONDITION1: THEN Do Something1ELIF Condition2: THEN Do Something2ELIF Condition3: ...基于概率的系统(Probabilistic...原创 2020-02-28 17:03:55 · 345 阅读 · 0 评论 -
11[NLP训练营]基于朴素贝叶斯的垃圾邮件分类
文章目录Naive Bayes垃圾这个词的概率物品这个词的概率其他词的概率Prior Information邮件分类标准Naive Bayes垃圾邮件里经常出现“广告”,“购买”,“产品”这些单词。也就是p(“广告”|垃圾)>p(“广告”|正常),p(“购买”|垃圾)>p(“购买”|正常)……这些概率怎么计算?垃圾这个词的概率根据假设:正常邮件的单词总数为24*10,垃圾邮件...原创 2020-02-29 08:52:20 · 1195 阅读 · 0 评论 -
12[NLP训练营]逻辑斯蒂回归
逻辑回归的推导、目标函数及其求解,正则项的意义,交叉验证如何做原创 2020-02-29 16:48:50 · 421 阅读 · 0 评论 -
13[NLP训练营]MLEvsMAP
文章目录Intuition BehindMLEMAPMathematical FormulationMLEMAP先验与正则From Gaussian Prior to L2 RegularizationFrom Laplace Prior to L1 Regularization小结MAP approaches to MLE solutionIntuition BehindMLE:最大似然估计...原创 2020-03-01 16:00:54 · 322 阅读 · 0 评论 -
14[NLP训练营]Lasso Regression
文章目录简介Why We Prefer SparsitySparsity例子:Housing Price Application确定特征的方法Option1:Exhaustive Search:"all subsets"Option2:Greedy Approaches·Forward Stepwise·Backward StepwiseOption3:via Regularization-A P...原创 2020-03-02 13:29:40 · 519 阅读 · 2 评论 -
15[NLP训练营]优化
优化的概念通常的,一个有关AI的问题可以分解为:模型+优化模型就是如何选择模型:逻辑回归、深度学习等,然后进行模型的实例化,例如选择深度学习,是采用alexnet还是什么构架?具体有几个卷积层,有多少全连接层,等等。实例化完毕之后,我们总是可以找到一个与实例化之后的模型相对应的objective function,再往后就进入了优化的阶段。优化的算法有很多:我们如何选择,或者说知道那个优化...原创 2020-03-04 09:54:33 · 657 阅读 · 0 评论 -
16[NLP训练营]L-Lipschit定理和GD收敛证明
文章目录定理1定理2推论1补充说明:Convergence Analysis of Gradient Descenty推论2推论3公式输入请参考:在线Latex公式定理1一个光滑函数(smooth function)f满足L-Lipschitz条件,则对于任意x,y∈Rdx,y\in R^dx,y∈Rd,我们有:∣∣▽f(x)−▽f(y)∣∣≤L∣∣x−y∣∣(定理1)||\triangl...原创 2020-03-05 12:35:34 · 898 阅读 · 1 评论 -
17[NLP训练营]线性分类器到线性SVM
文章目录线性分类器分清回归和分类Linear ClassifierMax margin methodMargin的表示SVM Objective:Hard ConstraintSVM Objective:Soft Constraint公式输入请参考:在线Latex公式线性分类器分清回归和分类之前写了逻辑回归,这里又提到线性分类,有点懵,先把百度得到的知识贴一下:先讲回归和分类。这个好说回...原创 2020-03-06 15:01:47 · 361 阅读 · 2 评论 -
18[NLP训练营]拉格朗日乘子法、对偶、KTT
文章目录前言Lagrangian:Equality Constraint例子Multiple EqualitiesLagrangian:Inequality ConstraintKTT conditions公式输入请参考:在线Latex公式前言一般情况下,最优化问题分为三类一、 无约束条件下的最优化问题这种最优化问题比较简单,直接求导为0就可以得到。二、 等式约束下的最优化问题即除了...原创 2020-03-08 14:54:33 · 379 阅读 · 0 评论 -
19[NLP训练营]信息抽取Information Extraction
文章目录信息抽取概要Extract Information from Unstructured TextInformation Extraction(IE)信息抽取应用场景Information Extraction ApplicationExtract Key Intormation抽取关键信息More Applications命名实体识别介绍Named Entity RecognitionCa...原创 2020-03-13 10:21:32 · 1510 阅读 · 0 评论 -
20[NLP训练营]HMM
文章目录Hidden Markov Model(HMM)介绍例子:丢硬币例子:Part of Speech Tagging(POS)略Parameters of HMM问题1Naive ApproachViterbi公式输入请参考:在线Latex公式Hidden Markov Model(HMM)介绍既可以看做判别模型,也可以看做生成模型。例子:丢硬币不能免俗,讲下丢硬币的例子,现在有...原创 2020-03-16 15:18:49 · 612 阅读 · 0 评论 -
21[NLP训练营]CRF
文章目录起源(HMM vs CRF)求有向图和无向图联合概率Log-Linear Model公式输入请参考:在线Latex公式起源(HMM vs CRF)可以看到下图中横向变化,和纵向的对比(有向图和无向图)。求有向图和无向图联合概率有向图的联合概率等于各个节点的条件概率的乘积,当然,x4,x5x_4,x_5x4,x5由于没有入度,所以不用条件。注意,在计算条件概率的时候,只需...原创 2020-03-17 16:57:29 · 432 阅读 · 0 评论 -
22[NLP训练营]Word2Vec
文章目录Global Generation vs Local GenerationIntuition of Word2Vec参数θ目标函数的形式Another FormulationNegative SamplingSG的负采样负采样的梯度下降公式输入请参考:在线Latex公式之前在深度带读里面有写过,再重新整理一下,不然缺22课。https://github.com/dav/word2vec/blob/master/src/word2vec.c学Word2Vec之前要明白为什么要学它,或者说这个算原创 2021-06-05 15:22:15 · 175 阅读 · 0 评论 -
23[NLP训练营]Seq2Seq几个要点
文章目录概述interfere/decode的过程Greedy SearchExhaustic SearchBeam Search小结AttentionAttention for Image Captioning实例解析Attention for Machine Translation小结Self-Attention小结公式输入请参考:在线Latex公式概述Seq2Seq模型的概念大概回顾一...原创 2020-03-23 18:05:44 · 910 阅读 · 5 评论 -
24[NLP训练营]Transformer
文章目录概述Encoder模块MultiHeadAttentionAdd & NormalizeDecoder模块位置信息公式输入请参考:在线Latex公式概述前一节已经讲了Transformer模型的attention机制。并且提出了时序类模型(RNN/LSTM)的缺点,然后这节来看看解决这些个问题的Transformer。之前paper带读也有一些笔记,估计没这里通俗易懂,就当...原创 2020-04-09 10:05:07 · 332 阅读 · 0 评论 -
25[NLP训练营]Model Estimation
文章目录前言频率派MLEMAP贝叶斯派公式输入请参考:在线Latex公式前言Model Estimation实际上是属于Bayesion model的范畴,所涉及到具体算法或者模型有:LDA、MMSB、Bayesion MF、Bayesion NN/LSTM/Bert/Transformer。大概有两个流派:频率派MLE要从训练数据D中估计出最好的参数θ∗\theta^*θ∗:θ∗=argmaxθp(D∣θ)\theta^*=arg\underset{\theta}{\max}p(D|\t原创 2021-06-11 10:48:02 · 213 阅读 · 0 评论 -
26[NLP训练营]从LDA文章生成到Gibbs吉布斯采样
文章目录前言文章的生成过程(非官方)生成的例子文章的生成(官方)1.alpha生成theta3.beta生成phi2.theta_i生成Z_ij4.Z_ij和phi生成w_ij整体生成过程Gibbs samplingGibbs sampling的由来theta_i的采样Z的采样小结collapsed gibbs sampling第一步第二步 看分子第一项第二项联合第一、第二项第二步 看分母分子分母...原创 2020-04-05 20:24:01 · 416 阅读 · 0 评论 -
27[NLP训练营]collapsed gibbs sampling
文章目录回顾第一步第二步 看分子第一项第二项联合第一、第二项第二步 看分母分子分母同时看化简小栗子小结公式输入请参考:在线Latex公式回顾下图是LDA生成的过程。为了更好描述collapsed gibbs sampling。把里面的标识换一下,问题的描述变成:计算P(Zts∣Z−ts,w,α,β)P(Z_{ts}|Z_{-ts},w,\alpha,\beta)P(Zts∣Z−ts,w,α,β)ttt代表第ttt个文档sss代表第ttt个文档的第sss个单词假设有一个集合x={x1原创 2021-06-14 18:10:57 · 775 阅读 · 1 评论