如何快速学习一个语言模型:
word2vec:用中心词预测上下文或者用上下文预测中心词。
GPT:用上一个字预测下一次字。
bert:用这个字本身的特征预测这个字。
第一步:搞清数据如何变成标签数据。即输入输出和标签是什么。
第二步:搞清楚模型结构。
第三部:损失函数是什么,一般是singmord二分类和softmax多分类。
词向量:将词转换成向量表示。
一个好的词向量应该有下面的几个特性:
1:满足相似性,相关,比如:两个相似词的词向量也要相似。
2:满足相加性。比如:词向量中国+词向量首都=词向量北京
如何训练词向量
比如:“网络的结构如下图所示”,这句话如何转换成词向量。
每次取5个词:“网络的结构“,中间的”的“作为标签,左右边的”网络 结构“作为输入。设计一个网络比如下面的网络,每个词设置成200维度的向量,将这个4个词作为输入,抽取特征,将抽完的特征接一个softmax分类器,类别为字典中词的个数,即可以得到一个词向量。有一个输出,标签是中间的词。然后不断的向后扫面这一句话“络的结构如”。大量的标注样本将会产生。通过上下文预测中间的字叫CBOW。另外一种通过中间的词预测两边的词,叫做Skip-gram.