DL4J中文文档/语言处理/Word2Vec

最新推荐文章于 2025-03-09 13:05:51 发布

bewithme

最新推荐文章于 2025-03-09 13:05:51 发布

阅读量2.3k

点赞数 1

分类专栏： AI

AI 专栏收录该内容

137 篇文章

订阅专栏

Word2Vec, Doc2vec & GloVe: 用于自然语言处理的神经词嵌入

内容

介绍
神经词嵌入
有趣的Word2Vec结果
给我代码
Word2Vec 剖析
安装，加载与训练
代码示例
问题排查与Word2Vec调试
Word2Vec用例
外语
GloVe(全局向量)与Doc2Vec

Word2Vec介绍

Word2Vec是一个处理文本的两层神经网络。它的输入是一个文本语料库，它的输出是一组向量：语料库中的单词的特征向量。Word2Vec不是一个深度神经网络，它将文本转换成一个深度网络可以理解的数值形式。DL4J实现了一个分布式的Word2Vec，用于Java和Scala，它在Spark的GPU上工作。

Word2Vec的应用扩展了自然界的句子解析。它也可以同样地应用于基因、代码、喜欢、播放列表、社交媒体图表和其他可以识别模式的语言或符号系列。

为什么？因为单词只是像上面提到的其他数据一样的离散状态，我们只是在寻找这些状态之间的转移概率：它们将同时发生的可能性。所以gene2vec，like2vec和follower2vec 都是可能的。记住这一点，下面的教程将帮助你理解如何为任意一组离散和共现状态创建神经嵌入。

Word2Vec的目的和实用性是将相似词的向量分组到向量空间中。也就是说，它在数学上检测相似性。Word2Vec创建向量，这些向量是单词特征（例如单个单词的上下文）的分布式数字表示。这样做没有人为干预。

给定足够的数据、用法和上下文，Word2Vec可以基于过去的出现对单词的意义做出高度准确的猜测。这些猜测可以用来建立一个单词与其他单词的关联（例如，“男人”是“男孩”，“女人”是“女孩”），或者是聚类文档，并按主题分类。这些聚类可以构成搜索的基础、情感分析和在科学研究、法律发现、电子商务和客户关系管理等多个领域的建议。

Word2Vec神经网络的输出是一个词汇表，其中每个项目都有一个附加到它的向量，它可以被送入深度学习网络或简单地查询以检测词之间的关系。

测量余弦相似度，90度角表示没有相似度，而总的相似度是1是0度角，完全重叠；即Sweden等于Sweden，而Norway到Sweden的余弦距离是0.760124，是任何其他国家中最高的。

这是一个使用Word2Vec生成的与“Sweden”相关的单词列表，按接近顺序排序:

Cosine Distance

斯堪的纳维亚的国家和几个富裕的北欧、日耳曼国家跻身前九位。

神经词嵌入

我们用来表示单词的向量称为神经词嵌入，表示是奇怪的。一件事描述了另一件事，尽管这两件事是根本不同的。正如Elvis Costello所说：“写作对于音乐就像跳舞对于建筑。”Word2Vec对单词“向量化”，通过这样做，它使得自然语言可以被计算机阅读——我们可以开始对单词执行强大的数学运算以检测它们的相似性。

因此，神经词嵌入用数字代表一个单词。这是一个简单但不太可能的翻译。

Word2Vec类似于一个自动编码器，将每个单词编码在一个向量中，而不是通过重建对输入单词进行训练，Word2Vec在语料库中将单词和与它们相邻的其他单词进行训练。

它以两种方式中的其中一种来实现，或者使用上下文来预测目标单词（一种称为连续词袋或CBOW的方法），或者使用单词来预测目标上下文，即skip-gram。我们使用后一种方法，因为它对大数据集产生更精确的结果。

word2vec diagram

当分配给单词的特征向量不能用于精确预测该单词的上下文时，向量的组成部分会被调整。语料库中的每个单词的上下文是老师，往回发送错误信号以调整特征向量。通过调整在向量中数值凑在一起的上下文，单词的向量被它们判断为相似的。

正如梵高的向日葵画是油画布上的二维混合物，代表了1880年代末巴黎三维空间中的植物物质，所以以向量排列的500个数字可以代表一个词或一组词。

这些数字将每个单词定位为500维向量空间中的一个点。超过三个维度的空间难以可视化。（Geoff Hinton教授人们想象13维空间，建议学生首先想象3维空间，然后对自己说：“13、13、13”：）

一组训练有素的单词向量将在那个空间中放置相似的单词。“橡树”、“榆树”和“桦树”可能会聚集在一个角落，而战争、冲突和争斗则聚集在另一个角落。

类似的事情和想法被证明是“接近的”。它们的相对意义已经转化为可测量的距离。质量变成数量，算法可以完成他们的工作。但相似性只是Word2Vec可以学习的许多关联的基础。例如，它可以衡量一种语言的单词之间的关系，并将它们映射到另一种语言。

word2vec translation

这些向量是更全面的词汇几何的基础。如图所示，像罗马、巴黎、柏林和北京这样的首都城市相互靠近，在向量空间上它们各自具有与其国家相似的距离，即罗马-意大利=北京-中国。如果你只知道罗马是意大利的首都，并想知道中国的首都，那么等式罗马-意大利+中国将返回北京。这不是玩笑。

capitals output

有趣的Word2Vec结果

让我们看看Word2Vec可以产生的其他关联。

我们将用逻辑类比的符号代替加减等号，给出结果，其中:是 “对于”的意思和::“等同”的意思，例如“罗马对意大利就像北京对中国一样”=罗马:意大利::北京:中国。在最后一点，当给出前三个元素时，我们将给出Word2vec模型建议的单词列表，而不是提供“答案”：

king:queen::man:[woman, Attempted abduction, teenager, girl] 
//很怪异，但你可以看到

China:Taiwan::Russia:[Ukraine, Moscow, Moldova, Armenia]
//两个大国和他们小的远离的邻居

house:roof::castle:[dome, bell_tower, spire, crenellations, turrets]

knee:leg::elbow:[forearm, arm, ulna_bone]

New York Times:Sulzberger::Fox:[Murdoch, Chernin, Bancroft, Ailes]
//Sulzberger-Ochs家族拥有并经营NYT。
//Murdoch 家族拥有新闻公司，此家族有福克斯新闻。 
//Peter Chernin是新闻公司的13年的首席运营官。
//Roger Ailes是福克斯新闻的主席。 
//Bancroft家族把《华尔街日报》卖给了新闻集团。

love:indifference::fear:[apathy, callousness, timidity, helplessness, inaction]
//这首诗的诗集简直令人惊叹。

Donald Trump:Republican::Barack Obama:[Democratic, GOP, Democrats, McCain]
//有趣的是，正如奥巴马和麦凯恩是对手一样
//同样，Word2Vec认为特朗普与共和党的观点有对立。

monkey:human::dinosaur:[fossil, fossilized, Ice_Age_mammals, fossilization]
//人类是化石猴子？人类就是剩下的
//猴子？人类是打败猴子的物种。
//就像冰河时代哺乳动物打败恐龙一样？貌似有理的。

building:architect::software:[programmer, SecurityCenter, WinPcap]

这个模型是在谷歌新闻vocab上进行训练的，你可以导入并玩一玩。考虑片刻，Word2Vec算法从来没有被教过一条英语语法规则。它对世界一无所知，与任何基于规则的符号逻辑或知识图无关。然而，比在多年的人力学习后大的大多数知识图的学习，它以更灵活和自动化的方式学习。它把Google新闻的文档看作一张白板，训练结束后，它可以计算对人类有意义的复杂类推。

你还可以查询Word2Vec模型进行其他关联。并不是每件事都必须有两个相互镜像的类推。（我们解释如下……）

地缘政治学：伊拉克-暴力=约旦
区分：人类-动物=伦理
总统-权力=总理
图书馆-图书=大厅
类推：股票市场≈温度计

通过构建一个单词与其他类似单词的邻近场景，这些单词不一定包含相同的字母，我们已经从硬标记，进入了更平滑和更普遍的意义的场景。

答：如果你所有的句子都被作为一个句子被加载，Word2Vec训练可能需要很长的时间。这是因为Word2Vec是一个句子级别的算法，所以句子边界非常重要，因为共现统计是逐句收集的。（对于GloVe来说，句子边界并不重要，因为它关注于语料库范围的共现。对于许多语料库，平均句子长度为六个单词。这意味着在窗口大小为5的情况下，有30个（随机数）回合的skip-gram计算。如果你忘记指定句子的边界，你可能加载一个“10000个单词”长的句子。在这种情况下，Word2Vec将为整个10000个单词“句子”尝试全skip-gram循环。在DL4J的实现中，假定一行是一个句子。你需要插入你自己的句子迭代器和分词器。通过要求你指定你的句子如何结束，DL4J仍然是语言不可知论者。UimaSentenceIterator是这样做的一种方式。使用OpenNLP进行句子边界检测。

问：为什么把整个文档作为一个“句子”而不是分割成句子时，在性能上有如此不同？

答：如果平均句子包含6个单词，窗口大小为5，那么理论上最多10个skipgram回合的次数是0字。句子不够长，不能用文字表达完整的窗口。在这句话中所有单词的粗略最大数目为5个skipgram回合。但如果你的“句子”有1000k个单词的长度，这个句子中的每个单词就有10个skipgram回合，不包括前5个和最后5个。因此，你将不得不花费大量时间来构建模型+由于缺少句子边界，协同统计将会发生变化。

问：Word2Vec是如何使用内存的？

答：Word2Vec中的主要内存消耗是权重矩阵。数学是简单的：单词数x维度数x 2 x数据类型内存占用。因此，如果使用浮点数和100维来构建100k字的Word2Vec模型，那么内存占用将是100kx100x2x4（浮点数大小）=80MB RAM，仅用于矩阵+用于字符串、变量、线程等的一些空间。如果加载预构建的模型，则在构建时间中使用大约1/2的RAM，因此它是40MB RAM。目前使用的最流行的模型是谷歌新闻模型。有3百万字，向量大小为300。这就使我们需要3.6G RAM仅加载模型。而且必须添加3M的字符串，这些字符串在Java中没有固定的大小。所以，通常是大约4-6GB用于加载模型，这取决于JVM版本/供应商，GC状态和月球的相位。

问：我做了你说的每一件事，结果还是不对头。

答：确保你正遇到不是正常性问题。一些任务，如wordsNearest()，默认使用标准化的权重，而其他的则需要非标准化的权重。注意这个区别。

用例

谷歌学者保存了论文记录，这里引用了Word2Vec的DL4J实现。

来自比利时的数据科学家Kenny Helsens将Word2Vec的DL4J实现应用于NCBI的在线孟德尔人类继承(OMIM)数据库。然后，他寻找与alk（一种已知的非小细胞肺癌的致癌基因）最相似的单词，Word2vec返回：“nonsmall, carcinomas, carcinoma, mapdkd”。从那里，他建立了其他癌症表型和基因型之间的类比。这只是Word2Vec在大型语料库上可以学习的一个例子。发现重要疾病新方面的潜力才刚刚开始，在医学之外，机会也同样多样。

Andreas Klintberg在瑞典训练了Word2Vec的DL4J实现，并在媒体上写下了一个完整的指导。

Word2Vec在信息检索准备基于文本的数据和问答系统中特别有用，DL4J通过深度自动编码器来实现这些系统。

营销人员可能寻求建立产品间的关系来建立推荐引擎。调查者可能会分析一个社会图表，以显示单个群体的成员，或者他们可能必须定位或资助的其他关系。

Google的 Word2vec 专利

Word2Vec是由Tomas Mikolov领导的谷歌研究团队介绍的一种计算单词向量表示的方法。谷歌托管了一个开源版本的Word2Vec，它是在Apache 2许可下发布的。在2014，Mikolov离开谷歌去了Facebook，并在2015年5月，谷歌被授予获得此专利，已发布的版本没有废除Apache许可证。

外语

虽然所有语言中的单词都可以用Word2Vec转换为向量，并且这些向量通过DL4J学习，但是NLP预处理可以非常特定于语言，并且需要超出我们库的工具。斯坦福自然语言处理小组有许多基于Java的工具，用于语言的分词、词性标注和命名实体识别，例如普通话、阿拉伯语、法语、德语和西班牙语。对于日本人来说，像Kuromoji之类的NLP工具是有用的。其他的外语资源，包括文本语料库，都在这里。

GloVe: 全局向量

加载和保存GloVe模型到Word2Vec可以这样做：

        WordVectors wordVectors = WordVectorSerializer.loadTxtVectors(new File("glove.6B.50d.txt"));

序列向量

DL4J具有一个名为SequenceVectors的类，它是单词向量之上的抽象级别，并且允许你从任何序列中提取特征，包括社交媒体概要、事务、蛋白质等。如果数据可以被描述为序列，它可以通过skip-gram和层次化的softmax与AbstractVectors类来学习。这与深度算法相兼容，也在DL4J中实现。

DL4L的Word2Vec特征

模型序列化/反序列化被添加后的权重会更新。也就是说，你可以通过调用loadFullModel、向其中添加TokenizerFactory和SentenceIterator、以及调用还原的模型上的fit()来使用200GB的新文本更新模型状态。
用于词汇构建的多个数据源的选项被添加。
训练和迭代可以单独指定，尽管它们通常都是“1”。
Word2Vec.Builder 有这个选项: hugeModelExpected. 如果设为 true, 在构建过程中，词汇将被周期性的截断。
minWordFrequency 有助于忽略语料库中的稀有词，可以排除任何数量的词来定制。
两个新的WordVectorsSerialiaztion 方法已被介绍: writeFullModel 和 loadFullModel. 这些保存和加载一个完整的模型状态。
一个体面的工作站应该能够处理一个有几百万单词的词汇量。DL4J的Word2Vec实现可以在一台机器上对兆兆字节的数据进行建模。大致来说，计算公式是：vectorSize * 4 * 3 * vocab.size()。

Doc2vec & 其它 NLP 资源

文学中的Word2Vec

It's like numbers are language, like all the letters in the language are turned into numbers, and so it's something that everyone understands the same way. You lose the sounds of the letters and whether they click or pop or touch the palate, or go ooh or aah, and anything that can be misread or con you with its music or the pictures it puts in your mind, all of that is gone, along with the accent, and you have a new understanding entirely, a language of numbers, and everything becomes as clear to everyone as the writing on the wall. So as I say there comes a certain time for the reading of the numbers.
    -- E.L. Doctorow, Billy Bathgate