FastText

最新推荐文章于 2022-09-27 11:40:48 发布

反正优胜是宋闵浩

最新推荐文章于 2022-09-27 11:40:48 发布

阅读量332

点赞数

本文链接：https://blog.csdn.net/weixin_41654912/article/details/81330169

版权

在文本特征提取中，常常能看到n-gram的身影。它是一种基于语言模型的算法，基本思想是将文本内容按照字节顺序进行大小为N的滑动窗口操作，最终形成长度为N的字节片段序列。看下面的例子：

我来到达观数据参观

相应的bigram特征为：我来来到到达达观观数数据据参参观

相应的trigram特征为：我来到来到达到达观达观数观数据数据参据参观

注意一点：n-gram中的gram根据粒度不同，有不同的含义。它可以是字粒度，也可以是词粒度的。上面所举的例子属于字粒度的n-gram，词粒度的n-gram看下面例子：

我来到达观数据参观

相应的bigram特征为：我/来到来到/达观数据达观数据/参观

相应的trigram特征为：我/来到/达观数据来到/达观数据/参观

n-gram产生的特征只是作为文本特征的候选集，你后面可能会采用信息熵、卡方统计、IDF等文本特征选择方式筛选出比较重要特征。

接下来我们回到FastText。

首先，FastText主要是对文本进行分类的，其词嵌入是FastText分类的产物。于是fastText的核心思想就是：将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。使用词embedding而非词本身作为特征，这是fastText效果好的一个原因；另一个原因就是字符级n-gram特征的引入对分类效果会有一些提升。

fasttext与CBOW一样，fastText模型也只有三层：输入层、隐含层、输出层（Hierarchical Softmax），输入都是多个经向量表示的单词，输出都是一个特定的target，隐含层都是对多个词向量的叠加平均。

不同的是，word2vec把语料库中的每个单词当成原子的，它会为每个单词生成一个向量。

这忽略了单词内部的形态特征，比如：“apple” 和“apples”，“达观数据”和“达观”，这两个例子中，两个单词都有较多公共字符，即它们的内部形态类似，但是在传统的word2vec中，这种单词内部形态信息因为它们被转换成不同的id丢失了。

为了克服这个问题，fastText使用了字符级别的n-grams来表示一个单词。对于单词“apple”，假设n的取值为3，则它的trigram有:

“<ap”, “app”, “ppl”, “ple”, “le>”

其中，<表示前缀，>表示后缀。于是，我们可以用这些trigram来表示“apple”这个单词，进一步，我们可以用这5个trigram的向量叠加来表示“apple”的词向量。

这带来两点好处：

1. 对于低频词生成的词向量效果会更好。因为它们的n-gram可以和其它词共享。

2. 对于训练词库之外的单词，仍然可以构建它们的词向量。我们可以叠加它们的字符级n-gram向量。

因此，CBOW的输入是目标单词的上下文，fastText的输入是多个单词及其n-gram特征，这些特征用来表示单个文档；CBOW的输入单词被onehot编码过，fastText的输入特征是被embedding过；CBOW的输出是目标词汇，fastText的输出是文档对应的类标。

值得注意的是，fastText在输入时，将单词的字符级别的n-gram向量作为额外的特征；在输出时，fastText采用了分层Softmax，大大降低了模型训练时间。

在实习过程中，我需要的是利用fasttext训练词向量，但是以上内容是关于fasttext分类的内容，这使我误以为单独训练词向量也需要分类标签再训练，然后词向量只是训练模型中的一个产物。实际上，词向量是无监督方法，无需标签的，并且fasttext里的词向量训练也即是word2vec中的cbow,skip-gram.

反正优胜是宋闵浩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
FastText

在文本特征提取中，常常能看到n-gram的身影。它是一种基于语言模型的算法，基本思想是将文本内容按照字节顺序进行大小为N的滑动窗口操作，最终形成长度为N的字节片段序列。看下面的例子：我来到达观数据参观相应的bigram特征为：我来来到到达达观观数数据据参参观相应的trigram特征为：我来到来到达到达观达观数观数据数据参据参观注意一点：n-gram中...
复制链接

扫一扫