人工智能
文章平均质量分 89
小龙凤团茶
求四人车队吃鸡
展开
-
Lamma2 踩坑记录
这里在tokenizer添加了一个pad_token,相比于原始的len(tokenizer)会➕1,并且将model的token_embeddings的大小增加1。我们在下载Lamma2模型的权重时,填写申请表格一出现 'China' 网页就没了,是不是不让中国用户使用lamma2了啊?这里使用的LlamaForCausalLM时Transformers写的一个用于文本生成的模型。这里的convert_llama_weights_to_hf.py脚本需要在。,在其基础上修改模型结构即可,常用的模型还是。原创 2024-04-18 11:30:46 · 566 阅读 · 0 评论 -
Transformer你也想学习吗
Transformer算法通过自注意力机制和位置编码实现了对序列的全局建模能力。自注意力机制允许模型直接建立序列中不同位置之间的关联,并通过注意力权重来捕捉全局依赖关系。位置编码则引入了序列的位置信息,使模型能够感知和利用序列中的顺序信息。这种结构的堆叠和多头注意力机制进一步增强了模型的表示能力,使得Transformer在自然语言处理和计算机视觉等领域取得了重要的突破。原创 2023-06-13 14:56:15 · 210 阅读 · 0 评论 -
深度学习与神经网络阅读笔记(持续更新)
文本分类将一个序列的最后一个时刻的隐藏状态hth_tht作为序列的特征表示,输入到分类器gg(.)g中.其中g⋅g(⋅)g⋅可以是简单的线性分类器(比如Logistic回归)或复杂的分类器(比如多层前馈神经网络)除了将最后时刻的状态作为整个序列的表示之外,我们还可以对整个序列的所有状态进行平均,并用这个平均状态来作为整个序列的表示,即。原创 2023-07-02 00:13:00 · 404 阅读 · 0 评论