![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
DL.AI NLPS
文章平均质量分 97
来自DeepLearning.AI,课程名称为:Natural Language Processing Specialization,该专栏为课程笔记以及相关代码分享
oldmao_2000
人工不智能,机器不学习。
展开
-
09.C2W4.Word Embeddings with Neural Networks
往期文章请点。原创 2024-07-10 21:02:55 · 806 阅读 · 0 评论 -
08.C2W3.Auto-complete and Language Models
往期文章请点。原创 2024-07-09 12:44:05 · 1009 阅读 · 0 评论 -
07.C2W2.Part-of-Speech (POS) Tagging and Hidden Markov Models
往期文章请点。原创 2024-07-08 18:24:07 · 862 阅读 · 0 评论 -
06.C2W1.Auto-correct
D[2,3] = pl → sta,表示pl到sta的最小距离,这里pl是单词play的前两个字母,sta是目标单词stay的前三个字母,也可以表示为:D[2,3] = source[:2] → target[:3],更通用的形式是。其实这些不同编辑操作得到的2是基于前面算出来的结果进行计算得到的,例如第一种操作中的插入s已经算过了就是1,然后是删除p也是1,最后加起来就是2,路径是紫色+一个删除;它通过将问题分解为更小的子问题,并将子问题的解存储起来(通常是在表格中),以避免重复计算,从而提高效率。原创 2024-07-07 22:13:07 · 659 阅读 · 0 评论 -
05.C1W4.Machine Translation and Document Search
可以看到,不同组的平面划分得到结果也不一样,这种划分方法在紫色向量找朋友的时候没有与所有的其他向量进行比较,只比较了子集,因此只能称为:Approximate nearest (friendly) neighbors算法。假设我们将英法翻译得到词向量用紫色表示,然后使用了三组不同的随机平面进行划分,得到最紫色向量最邻近的结果也有三组,分别用三种颜色表示。在法语词向量空间中找到与转化结果最接近(相似)的词向量,最相似的单词就是翻译的候选单词,例如找到chat,就是法语中的cat。例如下图中的橙色和蓝色向量。原创 2024-07-05 12:52:25 · 912 阅读 · 0 评论 -
04.C1W3.Vector Space Models
这里的Manipulating Words,是指对词向量的加减(平移向量),使得我们可以计算对应关系,例如:已有国家和首都的词向量空间,已知漂亮国首都是DC(漫威表示不服),求大毛的首都是什么。语料库中各个类型的文章单词数量不相同,这里的Agriculture和History文章单词数量基本相同,而Food文章单词较少。可视化可以让我们很直观的看到单词的相似性,当单词的向量表示通常是高维的,需要我们将其降维到2D空间便于绘图,这里先学其中一种降维写方式:PCA。这里n取值在1到词表大小之间。原创 2024-07-04 13:47:35 · 731 阅读 · 0 评论 -
03.C1W2.Sentiment Analysis with Naïve Bayes
概率与条件概率及其数学表达贝叶斯规则(应用于不同领域,包括 NLP)建立自己的 Naive-Bayes 推文分类器假设我们有一个推文语料库,里面包含正面和负面情感的推文:某个单词例如:happy,可能出现在正面或负面情感的推文中:下面我们用数学公式来表示上面的概率描述。AAA表示正面的推文,则正面的推文发生的概率可以表示为:P(A)=P(Positive)=Npos/NP(A)=P(Positive)=N_{pos}/NP(A)=P(Positive)=Npos/N以上图为例:P(A)=原创 2024-07-03 21:27:10 · 1063 阅读 · 0 评论 -
02.C1W1.Sentiment Analysis with Logistic Regression
如果词表大小为10W,则该句子的特征向量大小为1×10W的,单词出现在句子中,则该词的位置为1,否则为0,可以看到,句子的特征向量非常稀疏(称为稀疏表示Sparse representation)。SA任务的目标是用逻辑回归分类器,预测一条推文的情绪是积极的还是消极的,如下图所示,积极情绪的推文都有一个标签:1,负面情绪的推文标签为0。由于中括号里面的log是针对0-1之间的值,所以得到的结果是负数,为保证Cost函数是正值(这样才能求最小),在最前面加上了负号。原创 2024-07-02 20:42:44 · 672 阅读 · 0 评论 -
01.总览(更新ing)
这套课程NG站台,一共四课,每课分别又分四个小节,以下内容翻译至官网。原创 2024-07-01 19:03:23 · 906 阅读 · 0 评论