自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 大模型知识大全2-模型与数据集收集【大模型】

该数据集针对不同需求,发布了多个子版本:en(英文数据,806G),en.noclean(未清洗的原始数据,6T),realnewslike(仅包含 RealNews 涉及的领域的内容,36G),webtextlike(仅包含来自 OpenWebText 中URLs 的内容,17G)和 multilingual (多语言数据,38T)。该数据集按照时间顺序进行了训练集和测试集的划分,其中2016 年 12 月至2019 年 3 月的新闻划分为训练数据,2019 年 4 月的新闻划分为测试数据。

2024-07-09 10:50:28 817

原创 大模型知识大全1-基础知识【大模型】

历史我就不写了,简单说说大模型的应用和特点。能力和知识。其中绝大部分人利用了大模型中蕴含的知识和总结的能力,当做全能搜索引擎使用,我认为这仅仅是大模型使用的皮毛,大模型拥有的能力在微调后可以胜任大部分人类的工作,在大部分工作中可以当做人来使唤。具有较强的通用任务解决能力具有较好的复杂任务推理能力具有较强的人类指令遵循能力(chat模型)具有较好的人类对齐能力(RLHF)具有可拓展的工具使用能力。

2024-07-09 09:32:27 886

原创 大模型相关代码5 -- 基础激活函数【手撕基础代码】

一种基于高斯分布的激活函数,用在GPT3中。是针对relu在0点不可导的问题设计的,可以比relu提供更高性能。公式中的erf代表高斯分布Gauss Error。结合Swish和GLU,对输入的X进行W1 W2两次线性变换,将其中的一个结果输入Swish后两元素相乘。swish是一种或平滑连续的激活函数,在Transformer中应用广泛。通过门来控制信息的流动,选择性的传递信息。

2024-07-01 18:07:14 232

原创 大模型相关代码4 -- 基础激活函数【手撕基础代码】

它保留了 step 函数的生物学启发(只有输入超出阈值时神经元才激活),不过当输入为正的时候,导数不为零,从而允许基于梯度的学习(尽管在 x=0 的时候,导数是未定义的)。其输出不是以0为中心而是都大于0的(这会降低权重更新的效率),这样下一层的神经元会得到上一层输出的全正信号作为输入,所以Sigmoid激活函数不适合放在神经网络的前面层而一般是放在最后的输出层中使用。在一般的二元分类问题中,tanh 函数用于隐藏层,而 sigmoid 函数用于输出层,但这并不是固定的,需要根据特定问题进行调整。

2024-07-01 16:37:07 670

原创 大模型学习笔记3【大模型】LLaMA学习笔记

该仓库的中包含的大模型。Chinese-LLaMA-7B是在原版LLaMA-7B的基础上,在20GB的通用中文语料库上进行预训练。Chinese-LLaMA-Plus-7B是在原版LLaMA-7B的基础上,在120GB的通用中文语料库上进行预训练。在原模型的基础上,扩充vocab词表,使用中文数据进行“继续训练”,并使用中文指令数据进行微调。完全使用LoRA进行预训练和微调,需要原版的LLaMA模型。开源中文LLaMA模型,和指令微调的Alpaca大模型。LoRA居然能有这么强……本地GPU、CPU部署。

2024-07-01 15:36:43 770

原创 大模型学习笔记2【大模型】

文章目录学习内容1.选择基座模型2.验证3.微调4.训练数据5.Instruction Tuning6.训练7.测试8.部署学习内容介绍流程1.选择基座模型基座模型对结果比较重要,一般选择的流程:首先关注整体性能(打榜),其次关注所需任务的评分,一般选用Chat模型,节省训练对话所需的语料和成本。目前中文表现较好的是Yi,ChatGLM目前中文表现较好的是LLaMA2.验证用手上的数据、任务的数据验证一下哪个模型最好如果手上没有数据,可以寻找相关的任务/领域通用数据如果效果比较

2024-06-28 17:13:48 279

原创 大模型相关代码3 -- Transformer【手撕基础模型】

O为最终输出变幻矩阵。

2024-06-28 15:59:32 841

原创 大模型相关代码2 -- 多头注意力机制【手撕基础模型】

O为最终输出变幻矩阵。

2024-06-27 22:46:53 626

原创 大模型相关代码1 -- 注意力机制【手撕基础模型】

【代码】大模型相关代码1 -- 注意力机制【手撕基础模型】

2024-06-27 22:39:27 410

原创 NLP基础知识1【BERT】

NLP基础知识1【BERT】BERT之前的语言编码one-hot的问题word2vec存在的问题elmo存在的问题BERT未完待续总结整理BERT和BERT以前预训练模型的知识BERT之前的语言编码one-hot的问题维度灾难:由于将文本按01进行编码,维度过高,会遇到维度灾难的困扰,妹子词语的维度是语料库词典的长度。向量离散、稀疏问题:因为one-hot中,句子向量中,如果词出现为1,没出现为0,但是由于维度远远大于句子长度,所以句子中的1远小于0。词语的编码是随机的,不能表示词之间的联

2024-06-27 19:08:21 214

原创 大模型学习笔记1【大模型】

大模型微调,LoRA

2024-06-27 19:05:44 830

原创 GLM系列模型LORA微调【代码】

CHATGLM的lora微调,包含简单的原理讲解和代码

2024-03-14 10:15:58 438

原创 GLM api接口调用

【代码】GLM api接口调用。

2024-03-11 13:43:27 649

原创 langchain自带的滑动记忆【游玩大模型 五】【记忆 一】

【代码】langchain自带的滑动记忆【游玩大模型 五】【记忆 一】

2024-01-28 08:57:11 342

原创 大模型调用搜索接口后,将信息解析,将功能封装【游玩大模型 四】

【代码】大模型调用搜索接口后,将信息解析,将功能封装【游玩大模型 四】

2024-01-26 19:15:14 386

原创 大模型调用搜索接口【游玩大模型 三】

gpt调用检索接口的方法

2024-01-26 16:40:21 511

原创 大模型调用计算器接口【游玩大模型 二】

gpt调用计算器,调用计算器,大模型调用计算器

2024-01-26 16:38:31 436

原创 使用key调用OpenAI的GPT接口【游玩大模型 一】

调用gpt,调用openai,调用接口

2024-01-26 16:33:06 378

原创 ChatGLM的知识库/知识增强问答模块的简单设计

开发大模型知识增强时遇到的部分问题

2024-01-24 13:04:40 485

原创 ChatGLM模型实际应用的知识点

记录了GLM落地的一些知识点

2024-01-10 20:23:22 1074

原创 【word2vec】最简单的词向量训练【词向量】

超级简单的训练词向量方法。

2022-10-05 20:31:57 204 2

原创 【数据处理】对之前爬取的评论数据进行数据处理

nlp的数据处理,设计数据清洗,,去停用词,分词等工作。

2022-10-03 19:56:46 587 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除