![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
introduction to NLP
sansheng su
这个作者很懒,什么都没留下…
展开
-
斯坦福大学-自然语言处理入门 笔记 第二十课 问答系统(question answering)
1、什么是问答系统问答系统是最早的NLP任务,根据问题的依存关系,找到适合的依存关系的回答。在现代系统中问题被分为两类事实问题的回答一般都是一个简单的词组或者是命名实体两种问答系统的范式基于信息检索的路径:TREC; IBM Watson; Google基于知识的混杂路径:IBM Watson; Apple Siri; Wolfram Alpha; True Kn...翻译 2018-10-28 16:33:24 · 1101 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第十六课 依存句法分析(Dependency Parsing)
一、介绍1、依存句法依存句法假设:句法结构包含相互之间是双边不对称关系的词典(lexical)元素,这种不对称的关系成为依存(dependency),在图中的表现是单向箭头。箭头通常还会打上这种语法关系的名字(主语,前置宾语等等)箭头一边连接中心词head (governor, superior, regent),一边则连接依存词dependent (modifier, inferior...翻译 2018-10-25 16:23:32 · 10316 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)
一、问答系统中的总结(summarization)目标:产生一个摘要文本包含那些对用户重要和相关的信息总结的应用领域:任何文档的摘要和大纲,邮件摘要等等根据总结的内容,我们可以把总结分为两类:单文档总结:给出一个单一文档的摘要、大纲、标题多文档总结:给定一组文档,给出内容主旨;比如说同一个事件的新故事,关于一些话题和问题的网页根据总结的目的,我们可以把总结分为两类:泛总结:...翻译 2018-10-28 21:26:39 · 1004 阅读 · 4 评论 -
斯坦福大学-自然语言处理入门 笔记 第十二课 词性标注(Part-of-speech tagging)
一、词性(part-of-speech)介绍词性:名词(Nouns),动词(Verbs),形容词(Adjectives), 副词(Adverbs)等等就是我们想要研究的词性我们可以把词性分为开放类(open class)和闭合类(closed class)。闭合类只有固定的一些词不会再增加,包含限定词(determiners):a,an,the代词(pronouns):she,he...翻译 2018-10-21 13:42:54 · 15519 阅读 · 3 评论 -
斯坦福大学-自然语言处理入门 笔记 第十三课 统计语言句法分析(prasing)
课程来源:Introduction to NLP by Chris Manning & Dan jurafsky关于专用名词和概念:刚接触NLP领域,所以有些专有名词的翻译和专有概念可能会存在一定的偏误,随着学习的深入,我会随时更新改正。一、关于句法结构的两种看法1、成分(constituency)分析句法结构将句子组成了嵌套的成分(nested constituents...翻译 2018-10-21 22:25:12 · 2372 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第十四课 CGSs和PCFGs
一、概率上下文无关文法((Probabilistic) Context-Free Grammars)1、上下文无关文法(Context-Free Grammars)我们也可以称之为词组结构语法(Phrase structure grammars)由四个成分构成G=(T,N,S,R)T表示最终端(terminal),如下图粉色部分的子节点N表示非最终端(nonpreterminal),...翻译 2018-10-23 16:51:43 · 1223 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第十七课 信息检索(information retrieval)
一、介绍信息检索(information retrieval)是从海量集合体(一般是存储在计算机中的文本)中找到满足信息需求(information need)的材料(一般是文档)信息检索的应用领域:网页搜索,邮件搜索,电脑内部搜索,法律信息检索等等信息检索的基本假设:集合体(collection):一组假设为静态(static)的文档目标:抽取和用户信息需求相关的文档,并帮助他们完...翻译 2018-10-26 15:57:39 · 3644 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第十八课 排序检索介绍(ranked retrieval)
一、介绍之前我们的请求都是布尔类型。对于那些明确知道自己的需求并且了解集合体情况的用户而言,布尔类型的请求是很有效的。但是对于大部分的其他用户而言,布尔请求的问题是:大部分用户不熟悉布尔请求;布尔请求比较复杂;布尔请求的结果不是太多就是太少。排序检索应运而生。排序检索返回的是排序好的文档结果,它可以很好地处理布尔请求以及自由文档请求(free text queries),即自然语言的请求。而...翻译 2018-10-26 22:55:40 · 1185 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第十九课 单词含义与相似性
一、单词含义与单词关系回顾:词目(lemma)与单词形式(wordform)词目:表示相同的词根、词性以及大致的语义单词形式:表示在文档中出现的具体单词形式一个词目可能会含有很多含义(sense)。含义(sense)表示单词意思的一个方面的表现。比如说bank就有两个含义。…a bank can hold the investments in a custodial acco...翻译 2018-10-28 13:24:21 · 2542 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第七课 情感分析(sentiment analysis)
一、情感分析简述情感分析(sentiment analysis),又叫意见抽取(opinion extraction),意见挖掘(opinion mining),情感挖掘(sentiment mining)以及主观分析(subjectivity analysis)。情感分析的应用领域非常广泛情感分析是对态度的研究,具体可以分解为:按照复杂程度,可以把情感分类分为三类简单任务:判断...翻译 2018-10-17 19:23:13 · 3461 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第十一课 最大熵模型与判别模型(2)
一、最大熵模型1、模型介绍基本思想:我们希望数据是均匀分布的,除非我们有其他的限制条件让给我们相信数据不是均匀分布的。均匀分布代表高熵(high entropy)。所以,最大熵模型的基本思想就是我们要找的分布是满足我们限制条件下,同时熵最高的分布。熵:表示分布的不确定性的度量。就算公式如下:举例而言:抛一枚硬币的熵如下图,横轴表示抛到正面的概率特征限制:放到实际场景来考虑这个问题的...翻译 2018-10-19 21:55:08 · 809 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第三课 最小编辑距离
一、定义最小编辑距离1、最小编辑距离的用途拼写矫正用户输入graffe,那么哪一个是最接近的?graf?graft?grail?还是giraffe计算生物学用来校准核酸序列校准(alignment)结果同时也用于机器翻译,信息抽取等领域2、编辑距离两个字符串间最小的编辑距离就是将其中一个变成另外一个时需要的最小的编辑操作次数(操作包含插入、删除、替代)。举例...翻译 2018-10-14 11:23:18 · 1128 阅读 · 1 评论 -
斯坦福大学-自然语言处理入门 笔记 第四课 语言模型
一、介绍N-grams1、概率语言模型对每个句子给出一个概率,用以判断机器翻译中哪个句子是最佳的选择,拼写校准中哪个句子可能出现错误。目标:计算句子或者是一系列单词的概率P(W)=P(W1,W2,W3,W4,W5...Wn)P\left ( W \right )=P(W_{1},W_{2},W_{3},W_{4},W_{5}...W_{n})P(W)=P(W1,W2,W3,W4,...翻译 2018-10-15 20:27:23 · 4704 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第八课 最大熵模型与判别模型
一、生成模型与判别模型1、引言到目前为止,我们使用的是生成模型(generative model),但是在实际使用中我们也在大量使用判别模型(discriminative model),主要是因为它有如下的优点:准确性很高更容易包含很多和语言相关的重要特征有助于建立language independent, retargetable NLP modules2、比较生成模型...翻译 2018-10-18 16:05:31 · 1346 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第九课 信息抽取(information extraction)
一、介绍1、信息抽取(information extraction)信息抽取(IE)系统找到并理解文本中的有限的相关性从很多的文档之中收集信息产生一个相关信息的结构化的表征目的:进行信息的组织使之对人有用以相对精确的语义形式存放信息方便计算机算法后续的查找信息抽取(IE)系统一般会抽取清晰的实际的信息(谁对谁做了什么在什么时候)低程度的信息抽取一般被用在苹果...翻译 2018-10-18 22:53:19 · 5237 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第五课 拼写纠正与噪音通道(Noisy Channel)
一、拼写纠正任务1、拼写任务发现拼写错误纠正拼写错误自动纠正给出纠正建议(一个词)给出纠正建议(一些词)2、拼写错误的类型拼写出来的不是单词(non-word spelling error):graffe→giraffe拼写出来的是另一个单词排字(Typographical )错误:three→there认知错误(同音异形):too→two3、拼写出来的...翻译 2018-10-16 12:31:52 · 2657 阅读 · 2 评论 -
斯坦福大学-自然语言处理入门 笔记 第十课 关系抽取(relation extraction)
一、简介关系抽取就是从文档中抽取关系,例子如下:为什么进行关系抽取创建新的关系型知识库(knowledge bases)增强目前的知识库(knowledge bases)支持问题回答(question answering)一些例子自动内容抽取(Automated Content Extraction (ACE))2008年关系抽取任务的17种关系UMLS: ...翻译 2018-10-19 15:13:10 · 5435 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第六课 文本分类与朴素贝叶斯
一、文本分类任务概述1、应用领域归类垃圾邮件识别作者识别性别/年龄识别等等2、定义输入:一个文档d,一系列固定的类型C={c1,c2,…,cj}输出:预测类别c ∈ C3、分类方法手工规则:很精确但是代价很高监督机器学习:输入:一个文档d,一系列固定的类型C={c1,c2,…,cj},一个训练集包含m个样本,每个样本是手工标记的文档(d1,c1)…(dm,cm...翻译 2018-10-16 23:42:22 · 746 阅读 · 0 评论 -
斯坦福大学-自然语言处理入门 笔记 第十五课 词汇化(Lexicalization)的PCFGs
一、介绍一个短语的中心词(head word)可以很好地代表这个短语的结构和含义,在构建PCFG模型的时候,可以考虑将这部分信息纳入其中。如下图所示加入单词信息可以帮助我们更好地选择出合适的模型。二、Charniak模型Charniak模型是词汇化PCFG的一个非常直观的模型。条件概率是自上而下进行计算的,就像一般的PCFG一样,但是实际的语法分析过程是自底向上的,就像CKY算法一样...翻译 2018-10-24 19:37:49 · 2055 阅读 · 0 评论