《深度学习进阶自然语言处理》第二章：自然语言和单词的分布式表示

最新推荐文章于 2023-08-09 18:13:17 发布

【文言】

最新推荐文章于 2023-08-09 18:13:17 发布

阅读量634

点赞数 1

分类专栏： # 深度学习进阶自然语言处理文章标签：自然语言处理深度学习人工智能

深度学习进阶自然语言处理专栏收录该内容

9 篇文章 6 订阅

订阅专栏

文章目录

之前文章链接：

开篇介绍：《深度学习进阶自然语言处理》书籍介绍
第一章：《深度学习进阶自然语言处理》第一章：神经网络的复习

本章开始介绍自然语言处理相关的知识。自然语言处理的根本任务是让计算机理解我们的语言，我们在此先介绍深度学习出现之前的古典方法，是如何实现自然语言处理的。

2.1 什么是自然语言处理

自然语言(natural language)指的是我们平常使用的语言（比如汉语或英语），自然语言处理(Natural Language Processing, NLP)就是一种能够让计算机理解人类语言的技术。相较于机械的、缺乏活力的编程语言，自然语言是意思和形式灵活变化的活着的语言。当我们能通过方法使计算机能够理解自然语言，计算机就能完成更多对人们有用的事情，比如搜索引擎、机器翻译、问答系统、情感分析和自动文本摘要等。

2.1.1 单词含义

我们的语言由文字构成，语言的含义是由单词（字）构成，也就是说单词是含义最小的单位。计算机要理解自然语言，它得从理解单词含义开始。本章将介绍人工整理好的同义词词典的方法，并对基于计数的方法进行说明。下一章会讨论利用神经网络的基于推理的方法。

2.2 同义词词典

回顾NLP历史，人们曾多次尝试类似《新华字典》那样人工一个词一个词定义单词含义。但是被广泛使用的是一种被称为同义词词典(thesaurus)的词典，即同义词或近义词被归到同一个组中，词典中有时会定义单词之间的更细粒度的关系，比如“上位 — 下位”关系、“整体 — 部分”关系。如下图所示，利用图结构定义各个单词之间的关系。

通过对所有单词创建近义词集合，并用图表示单词之间的关系，可以定义单词之间的联系。利用这个“单词网络”便可以间接地将单词含义教给计算机。

2.2.1 WordNet

在NLP领域，最著名的同义词词典是WordNet，它是普林斯顿大学的心理学家，语言学家和计算机工程师于1985年开始联合设计的同义词词典。使用WordNet，可以获得单词的近义词，或者利用单词网络计算单词之间的相似度。感兴趣的同学可以查一下相关资料，这里不做细述。

2.2.2 同义词词典的问题

WordNet等同义词词典的构建是由人工标记完成，可以让计算机理解单词含义，但也存在一些较大的缺陷。下面是同义词词典的主要问题：

难以顺应时代变化
人力成本高
无法表示单词的微妙差异

2.3 基于计数的方法

计数方法离不开语料库(corpus)，语料库就是大量的文本数据，基于计数的方法就是从这些文本语料中自动且高效地提取本质。

2.3.1 语料库的预处理

我们将使用python对一个非常小的文本数据（一个句子）进行预处理，这里的预处理是指将文本分割为单词（分词），并将分割后的单词列表转化为单词ID列表。

def preprocess(text):
  # 将所有字母转小写，可以将开头单词转常规单词处理
  text = text.lower()
  text = text.replace(".", " .")
  words = text.split(" ")

  word_to_id = {}
  id_to_word = {}
  for word in words:
    if word not in word_to_id:
      new_id = len(word_to_id)
      word_to_id[word] = new_id
      id_to_word[new_id] = word

  corpus = np.array([word_to_id[w] for w in words])

  return corpus, word_to_id, id_to_word