【自用】文本分类 -> 特征提取方法

根据我们组大神发给我的学习资料做成的一个笔记,方便自己进行复习~~~~~~~

前言

参考 :知乎 — 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

如果我们想让计算机学习到我们的语言,至少需要先教会它们词汇和语法,也就是 提取词汇和语法所蕴含的特征,再使它们理解每句话的含义。

就目前而言词汇可以转变为向量,即 词向量,让计算机学习。而用何种算法转化为向量仍是一个值得讨论的问题。

当前已经有了诸多的转化方法,主要分为 静态词向量(上下文无关) 和 动态词向量(上下文相关) 两大类。

当计算机得到词向量后,才算作学会了词汇和语法,此时才可以按我们的意愿,使计算机对不同的文本进行不同的操作。

接下来的内容,分为 预备知识 、 词嵌入模型 和 预训练语言模型 。对于 预备知识 而言,将会介绍静态词向量。而 词向量模型 将会介绍能更好生成静态词向量的若干个经典模型。对于 预训练语言模型 来说,将会用来解决词向量模型生成的向量不能随着上下文而改变的问题,即多义词(动态词向量)的问题及其它问题。

--------- 预备知识 ---------

1.词嵌入(Word Embedding)

2.2.1 Word Embedding 介绍

参考:    word2vec详解(一)

首先,在使用one-hot的时候,可能会导致维度爆炸。其次,使用one-hot的时候,所有的词之间的距离相同,实际上,相似的词更有可能出现在相同的上下文中。如使用one-hot表示时,人和猫、狗之间的距离相等,这个在实际上是不符合要求的,而word embedding可以解释上面的问题。

什么是word embedding呢?如果将word看作文本的最小单元,可以将Word Embedding理解为一种映射,其过程是:将文本空间中的某个word,通过一定的方法,映射或者说嵌入(embedding)到另一个数值向量空间。

更易理解的方式是采用更加紧凑的方式来避免维度爆炸,如下面一张图:

经过这样的表示后,我们的dog就可以表示为dog=[w1,w2,w3…],其中基向量[w1,w2,w3…]可以采用PCA之类的方式获取。

Word Embedding主流有以下两种:

基于频率的Word Embedding(Frequency based embedding)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值