-译文,原文链接:Word to Vectors — Natural Language Processing
为什么NLP比较难?
计算机以清晰、准确并且通常是结构化的程序语言与人类交互。然而,人类的语言通常不是那么清晰。有同义词、反义词、反义词还有一些单词在用做名词和动词会表现出不同的含义。这些字词在自然语言中具有上下文相关的意义,人类可以理解和区分它们,而机器则不能。这就是使NLP成为AI中最困难,最有趣的任务之一的原因。
使用NLP可以完成什么工作?
通过使计算机能够“理解”人类语言,可以完成一些任务。我在本文中用于检测拼写和语法的应用就是一个实例。下面这些任务也是NLP正在研究的:
- 拼写和语法检测
- 同义词反义词的寻找
- 从文档和网站提取信息
- 理解语句、文档的信息
- 机器翻译(例如从英语到德语的翻译)
- 回答问题和完成任务(例如安排日程)
如何标识单词?
首先,我们要能够将单词作为机器学习模型的输入,一种表示单词的数学方法是将其表示为向量。英文中大约共有1300万单词,但是他们中的很多是相关的,比如spouse和partner,hotel和motel。所以我们是否有必要为1300万个单词分别使用向量表示?
当然不是,我们必须寻找一个远小于1300万的并且足以编码语言中的所有语义的N维向量空间。我们必须对单词