大模型黑书
文章平均质量分 87
53年7月11天
学会复利,抓住奇迹
展开
-
tokenizer(词元化方法),嵌入向量
嵌入矩阵的训练过程确实类似于 Skip-Gram 架构的核心思想,但在大模型中,它通过自监督任务、多任务学习以及最新的优化技术得到了更广泛的扩展和应用。这些方法共同作用,使得嵌入向量能够捕捉更丰富、更通用的语义信息,为模型的强大表现奠定基础。当前许多研究确实会单独训练一个 tokenizer,然后将其与预训练模型拼接在一起,再进行模型的训练和推理。这样做主要是为了利用已经优化和验证过的 tokenizer,从而减少整体模型的训练成本和复杂性。原创 2024-08-25 09:47:23 · 540 阅读 · 0 评论 -
大模型黑书阅读笔记--第一章
启发提出了RNN,20世纪80年代,CNN应用于文本序列,并制作出LeNet-5,然而在处理长而复杂序列中的长期依赖关系时,CNN原本的高效架构达到了极限。过了没有更多进展的30年,到2017,工业化的最先进的transformer出现了,RNN不再是序列建模的先决条件了。transformer诞生:大型科技公司不得不找到更好的模型来应对流入数据中心的PB级数据的指数增长,需要一个AI模型就能处理各种任务,而这些任务往往是需要用不同的算法单独处理的。提出AI这个词,确定了机器是可以学习的,1982年。原创 2024-05-01 12:05:49 · 407 阅读 · 0 评论