NLP小白学习路线(2)——Glove模型

上一篇我们讲到了,怎么让计算机理解人类的语言,那就是构建让计算机可以理解的one-hot向量,
但是由于语料库太庞大,one-hot容易导致维度灾难,并且不能计算词之间的相似性,所以我们引入了Word Embedding的概念。

Word Embedding 在one-hot的基础上压缩了描述语料库的维度,从原先的V-dim降低为了自己设定的K值,Word Embedding是Word2Vecmo模型的中间产物,是在不断最小化损失函数时候,不断迭代更新生成的。

PS: word2vec的经典之作 Xin Rong 论文

本篇文章介绍了基于窗口的共现矩阵的方法,引入GloVe。最后介绍了内部和外部词向量评估机制

Window based co-occurrence matrix

什么为共线矩阵(co-occurrence matrix )?
在这里插入图片描述
这种方法存在以下问题:

词汇增加,维度增加
高纬度,需要大量存储空间
后面分类模型存在稀疏性问题,导致模型不健壮
解决办法:降维——如何降?

对共现矩阵进行奇异值分解(SVD)
在这里插入图片描述
但是一些功能词(the, he, has)出现太过频繁,对语法(syntax)影响较大,上图所示的效果并不十分理想,需要对进行改进:

  • 限制高频词的频次,min(X,t),with t~100 ,或者干脆忽略这些高频词
  • 增加的窗口更精确地计算相近的单词(ampedwindows that count closer words more)用皮尔逊相关系数( Pearson correlations)代替词频(counts),然后将负值设置为0。

GloVe模型

  • 模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息
  • 输入:语料库
  • 输出:词向量

GloVe目标是综合基于统计和基于预测的两种方法的优点。

模型目标:词进行向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息

流程:输入语料库–> 统计共现矩阵–> 训练词向量–>输出词向量
目标函数:
在这里插入图片描述

How to evaluate word vectors?

1.Intrinsic:内部词向量评估:词向量类比。
通过对词向量的余弦距离分析可得到直观的语义和语法问题。
通过Glove可视化,会发现这些类推的向量是近乎平行的。
在这里插入图片描述
关于调参:

  • 维度最好为0-300,但对于downstream的任务可能不同。
  • 不对称的上下文(只对左边的单词)结果不太好
  • 窗口大小为8的对称窗口对Glove向量效果好。
  • 更长的训练时间会帮助提升模型的效果
  • 更多的数据
    在这里插入图片描述

2.Extrinsic:实体命名识别会起到很大的帮助

Word senses and word sense ambiguity

关于单词歧义的消除:通过对上下文的聚类分门别类地重新训练
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
NLP(Natural Language Processing)大语言模型学习路线可以分为以下几个步骤: 1. 基础知识学习:首先,你需要了解自然语言处理的基本概念和技术,包括文本预处理、词向量表示、语言模型等。可以通过阅读相关教材、参加在线课程或者观看相关视频来学习。 2. 编程技能学习:掌握一门编程语言(如Python)以及相关的机器学习深度学习框架(如TensorFlow、PyTorch),这将有助于你实现和应用NLP模型。 3. 数据集获取与处理:寻找合适NLP数据集进行实践和训练。常用的数据集包括IMDB电影评论、新闻语料库、问答数据集等。同时,你需要学习如何对文本数据进行预处理,包括分词、去除停用词、标注词性等。 4. 语言模型训练:选择一个合适NLP大语言模型(如GPT、BERT),并学习如何使用该模型进行训练。你可以使用已有的预训练模型进行微调,也可以从头开始训练一个新的模型。 5. 模型评估与优化:学习如何评估和优化你的NLP模型。常用的评估指标包括准确率、召回率、F1值等。你可以通过调整模型的超参数、增加训练数据、使用更复杂的模型结构等方式来提升模型性能。 6. 实际应用与项目实践:将所学的NLP知识应用到实际项目中,例如文本分类、情感分析、机器翻译等。通过实践项目,你可以更好地理解和掌握NLP技术,并提升自己的实践能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值