Efficient Estimation of Word Representations in Vector Space(翻译)

We propose two novel model architectures for computing continuous vector representations
of words from very large data sets. The quality of these representations
is measured in a word similarity task, and the results are compared to the previously
best performing techniques based on different types of neural networks. We
observe large improvements in accuracy at much lower computational cost, i.e. it
takes less than a day to learn high quality word vectors from a 1.6 billion words
data set. Furthermore, we show that these vectors provide state-of-the-art performance
on our test set for measuring syntactic and semantic word similarities.

我们提出两个用于 在大规模数据集上 计算连续词向量表示的新模型框架。这两种表示的评估方式为:在词的相似性计算,此结果对比最近表现最佳的不同类型的神经网络类型。对比结果显示,在大幅降低计算消耗的情况下准确性获得了提升。例如:在16亿词的数据集合上,训练少于1天,可以获得一个高质量的词向量。此高质量的词向量,在用于评估的语法、语义相似性的数据集上获得了最先进的性能。

 

1 Introduction
Many current NLP systems and techniques treat words as atomic units - there is no notion of similarity
between words, as these are represented as indices in a vocabulary. This choice has several good
reasons - simplicity, robustness and the observation that simple models trained on huge amounts of
data outperform complex systems trained on less data. An example is the popular N-gram model
used for statistical language modeling - today, it is possible to train N-grams on virtually all available
data (trillions of words [3]).
1简介
许多当前的NLP系统和技术将单词视为原子单元 - 没有词与词相似性的概念,就好像它们在词汇表中表示为索引。 这个选择有几个好处: 简单,鲁棒 以及一种现象:依赖大数据量训练得到的简单的模型 优于 通过较少数据训练的复杂系统。 一个例子是流行的N-gram模型用于统计语言建模 - 今天,可能所有的可用数据都在用于训练N-gram模型([3])。

However, the simple techniques are at their limits in many tasks. For example, the amount of relevant in-domain data for automatic speech recognition is limited - the performance is usually dominated by the size of high quality transcribed speech data (often just millions of words). In machine translation, the existing corpora for many languages contain only a few billions of words or less. Thus, there are situations where simple scaling up of the basic techniques will not result in any significant progress, and we have to focus on more advanced techniques.
然而,这种简单的技术在许多任务中都处于极限。 例如,用于训练语音识别模型的数据 在特定的领域中数据是很少的。训练效果受限于高质量的语音数据(通常只有几百万词)。在机器翻译领域,很多语言的只包含几十亿的词或者更少。因而,当前的状况是,对简单技术的提升很难取得显著的效果,我们应该关注更先进的技术。
With progress of machine learning techniques in recent years, it has become possible to train more complex models on much larger data set, and they typically outperform the simple models. Probably the most successful concept is to use distributed representations of words [10]. For example, neural network based language models significantly outperform N-gram models [1, 27, 17].

伴随近些年机器学习技术的发展,在更大数据集上训练更复杂的模型变为了可能,且复杂模型的效果优于简单模型。最成功的四路是 词的分布式标识。例如,基于神经网络的语言模型 显著的优于N-grams models.

1.1 Goals of the Paper

The main goal of this paper is to introduce techniques that can be used for learning high-quality word vectors from huge data sets with billions of words, and with millions of words in the vocabulary. As far as we know, none of the previously proposed architectures has been successfully trained on more than a few hundred of millions of words, with a modest dimensionality of the word vectors between 50 - 100.

本文的目的是介绍再huge data(十亿基本的word,百万级基础词)上训练高质量词向量的技术。就我们目前所知,还没有一个模型 可以达到如下效果:在几百万不同的词,词向量为50-100.

We use recently proposed techniques for me

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在全轮驱动(AWD)车辆中进行车速估计是一项重要的任务。估计车速可以帮助驾驶员更好地了解车辆的动态状况,确保驾驶的安全性。 首先,车辆的车速可以通过使用车辆自带的速度传感器来估计。这些传感器可以测量车轮旋转的速度,然后通过车辆的车轮直径等参数进行计算,从而得出车速的估计值。 其次,车速的估计还可以通过使用车辆上安装的惯性测量单元(IMU)进行。IMU可以测量车辆的加速度和旋转速度,通过对这些数据进行积分和滤波处理,可以得到车辆的位移和旋转角度。然后,通过这些数据计算出车辆的车速。 另外,车辆上的其他传感器也可以辅助车速的估计。例如,使用GPS可以测量车辆在地球表面上的位置变化,可以通过这些位置数据的变化来计算车速。另外,使用雷达或相机等传感器可以监测周围环境中的物体移动情况,通过分析这些移动的物体的速度和方向,可以得到车辆的车速估计值。 总之,在AWD车辆中进行车速估计是一项复杂的任务,需要结合多种传感器和数据进行计算和分析。准确的车速估计对于驾驶员的安全和行车控制至关重要。 ### 回答2: 在AWD车辆中估计车速可以通过多种方式来完成。其中一种方法是使用车辆的制动系统来估计车速。制动系统通过监测车辆的轮胎旋转速度来估计车速。当车辆行驶时,每个轮胎的旋转速度会根据车辆的速度而有所变化。通过比较不同轮胎的旋转速度,可以获得一个接近实际车速的估计。 另一种常见的方法是使用车辆的动力系统来估计车速。AWD车辆通常配备有多个驱动轴,每个驱动轴都有一个独立的动力输出装置。通过监测不同驱动轴的动力输出和转速,可以计算出车辆的速度。 除了以上两种方法外,还可以使用车辆的惯性传感器来估计车速。惯性传感器可以检测车辆加速度的变化,并根据这些变化来估计车速。这种方法相对于其他方法更加灵活,可以适用于各种道路和驾驶条件。 需要注意的是,这些方法都是基于估计和计算而来的,可能存在一定的误差。车辆的负载、行驶条件、轮胎磨损等因素都会对估计结果产生影响。因此,在估计车速时需要考虑这些因素,并进行适当的校正和调整,以提高估计精度。 ### 回答3: 在全轮驱动车辆中,估计车辆速度的主要方法有多种。其中一种常用的方法是使用车辆的转速和轮胎直径来进行估算。当车辆在行驶过程中,发动机的转速会通过传动装置传递给车轮,从而推动车辆前进。因此,通过测量发动机转速可以推断车辆的速度。同时,了解车辆所使用的轮胎直径也能提供一定的参考,因为车轮每转一圈所走过的距离与其直径有关。 另外一种估算车辆速度的方法是使用车辆的里程表和所用时间。里程表记录了车辆行驶的总距离,而所用时间可以通过计时器或车载导航系统等设备来获得。通过计算车辆在一段时间内行驶的距离,再与所用的时间进行比较,就可以估算出车辆的速度。 除了以上两种方法,现代车辆中也经常使用车载传感器来测量车辆的速度。这些传感器可以测量车轮的转速,然后通过电子控制单元(ECU)计算出车辆的速度。这种方法通常比较精确,可以准确地估算车辆的实际速度。 综上所述,在全轮驱动车辆中,估算车辆速度可以使用车辆转速和轮胎直径的关系、里程表和时间的关系以及车载传感器等方法。这些方法各有其优势和适用场景,在实际应用中可以根据需要选择合适的方法进行估算。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值