Max_Uer-CSDN博客

原创自然语言处理笔记week1

（1）词法分析：词性标注与词义标注（2）句法分析：判断句子的句法结构和成分，明确各成分的相互关系，包括：完全句法分析、浅层句法分析（3）语义分析：根据句子的句法结构和句子中每个实词的词义推导出来能够反映这个句子意义的某种形式化表示（4）语用分析：人对语言的具体运用，是对自然语言的深层理解（5）篇章分析：对段落和整篇文章进行理解和分析（1）The set of states (状态集): Q（2）A finite alphabet (有限字母表): Σ。

2024-06-23 10:28:16 760

原创自然语言处理笔记week2

在仅使用 a.insertion插入 b.deletion删除 c.substitution替代这三种操作的情况下，从一个字符串到另一个字符串所需的最少操作数。如果想要求 edit distance，要先找两个字符串的对齐（alignment），如下为例：Edit distance 的一个应用：评价机器翻译的结果。我们想要得到，一句话的单词序列为w1w2wnw1w2...wn的概率Pw1w2wnpωPw1w2...wn。

2024-06-23 10:21:49 529

原创自然语言处理笔记week3

（1）任务介绍：对于一个单词序列w1w2wnw1w2...wn，我们希望找到一组词性序列t1t2tnt1t2...tnt1narg max⁡t1t2tnPt1t2tn∣w1w2wnt1nt1t2...tnargmaxPt1t2...tn∣w1w2...wn利用bayes公式Px。

2024-06-23 10:17:04 544

原创自然语言处理笔记week4

例如这里，从左边第一列开始，[0,1]单元格代表第一个单词 Book，它在语法中的词性都写在其中；（2）A lexicon (词表) of words and symbols：Non-terminal (非终极符号，即短语，可再分单位) / terminal (终极符号，即单词或标点符号，不可再分) symbols。例如，根据：NP->DET + NORMINAL，“this dog” 与 “this dogs” 都是合乎语法的，但显然后者是不对的。第二个 for 循环，代表从下往上填充每个单元格；

2024-06-23 10:09:45 609

原创自然语言处理笔记week5

比如：表示主语的NP（名词短语），现在将它重新标注为NP^S，表示它的父节点是句子。现在是：VP(dumped)->V(dumped) NP(sacks) PP(into) 和 P(rule|VP)，括号里的是该短语的中心词（head）。候选解析中的结构是 (X (Y Z))，这表示Y和Z首先组合成一个结构，然后与X组合，这与Treebank的结构不一致。Treebank中的结构是 ((X Y) Z)，这表示X和Y首先组合成一个更大的结构，然后再与Z组合。用概率化模型进行句法分析的算法。

2024-06-23 10:01:57 736

原创自然语言处理笔记week6

它们的共同思想是，利用向量表示单词，将单词的含义映射到向量空间。问题来了，直接使用计数结果得到单词的向量表示，会受到一些高频词的干扰，例如the、of、a等，使得单词之间的差别被 “抹平” 了。当处理自然语言数据时，这通常意味着非常罕见的单词可能会获得非常高的PMI值，尽管这些高值可能并不完全反映这些单词在真实语言使用中的实际重要性或关联性。如果我们只保留m个奇异值的前k个，那么我们就可以得到一个m*k的矩阵，这个矩阵就是我们的词向量。得到单词的向量表示后，我们可以用处理向量的方法进行单词的相似度估计。

2024-06-23 09:56:40 525

原创自然语言处理笔记week7

WordNet与其他标准词典最显著的不同在于：它将词汇分成五个大类：名词、动词、形容词、副词和虚词.下面是单词 bass 在 WordNet 里的描述：在WordNet中，Lexical entries（词条）是通过semantic relations（语义关系）相互连接的，这种组织方式构成了WordNet的核心特点。

2024-06-23 09:51:06 785

原创自然语言处理笔记week8

算法思想是，对于给定的一个单词和它所在的上下文，我们在辞典中找到该单词的所有注释，然后将各个注释一一与上下文对比得到它们重合的单词数目，然后选择重合单词最多的注释作为该单词的词义。因为辞典的词义是按照出现频率排序的。（1） Lexical Sample task词汇采样：有一小部分预选好的目标词，和每个单词的sense的集合，使用有监督学习为每一个单词训练一个分类器。是指：给定一个上下文中的单词，以及这个单词所有可能的sense，找出在这个上下文里，该单词最合适的sense。下面主要介绍 Lesk 算法。

2024-06-23 09:41:22 595

原创自然语言处理笔记week9

Information Extraction（信息抽取，简称IE）是一种从自然语言文本中抽取出特定的事件或事实信息的技术，这些信息通常包括实体（entity）、关系（relation）和事件（event）。该技术主要针对文本中描述的经常性、典型性事件或信息结构，通过建立相应的模板，并使用从文本中抽取的适当材料对模板进行填充，从而完成信息的抽取和整理。（1）命名实体内部的特征：命名实体所包含的单词、内部单词的类型、命名实体的headword关键字。（1）关系检测：确定实体之间是否有关系，“是”或“不是”。

2024-06-23 09:16:07 771

原创自然语言处理笔记week10

摘要，就是要用尽可能短的语句传达尽可能多的信息。报道性摘要适用于原创性论文，其基本要求是指明问题，概述文章主题和主要目标，简要总结主要结果和重要结论，并说明结果的价值和重要性。指示性摘要又称描述性摘要，适用于综述性论文。这种摘要的作用类似于论文目录，只介绍论文做了什么或者总结了什么，而没有给出研究的主要结果和结论，因此，这种摘要不能作为研究性或原创性论文的摘要。Extractive 摘抄 vs. Generative 生成一个是从源文本摘出一部分，一个是生成新的内容。（2）Luhn 58。

2024-06-23 09:03:14 700 1

Max_Uer的博客