自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 从零训练一个我的世界小助手

作为一个MC老玩家,每次查阅相关百科的时候都需要去浏览器搜索大量网页才能得到想要的网站,而且有时候由于版本不同,遇到的问题还没有解决方法。同时,我作为一个从事大模型相关研究的人员,想着能不能利用有关我的世界的数据去微调一个拥有丰富知识的我的世界的小助手呢,这样每次有疑问直接去问小助手就可以了。说干就干,我首先调研了网络上是否存在有关我的世界的数据集,结果还真有我的世界QA数据集,超过390,000条指令,语言为英文。数据集格式:“input”:我的世界QA数据集,700k,语言为英文。

2025-04-11 09:41:06 823

原创 各种大模型api的调用方法(持续更新)

【代码】各种大模型api的调用方法(持续更新)

2025-03-14 09:21:46 235

原创 如何从GitHub上下载指定文件夹中的内容

GitHub中拥有众多优质的开源项目,我们在找到自己感兴趣的项目之后,总想着动手复现,这时就需要将GitHub上的项目下载下来。如果我们要下载其中某一个文件夹中的内容,而不想下载其他文件夹中的内容,使用上述方法就显得无能为例了。如,我们要下载上图中的llma文件夹中的内容,我们只需打开这个文件夹,复制其网址。如果我们下载整个项目,那么很简单。直接下载ZIP文件即可。,输入网址后即可开始下载。

2025-03-11 15:45:57 418

原创 大模型token的通俗解释

分词器统计了大量我们会用到的词,并将这些词进行编号,放进一个表中,下次需要分词时直接根据表中的编号,将一个句子转变为编号,传给大模型进行处理。当然,大模型输出的也是编号,再由分词器将编号转变为我们看得懂的文字。就是这句话,一个字可以是一个token,一个词可以是一个token,甚至一个字母、一个标点符号也可以是一个token。这样组成词语我们大脑就会比较轻易的认识,当然,既然大脑可以这么做,人工智能当然也可以这么做。,专门帮助大模型把句子或者段落分解成长短不一的词,称为token。我们先来看一个例子。

2025-03-04 20:09:52 243

原创 neo4j console 无反应

本人在前几天使用neo4j console启动neo4j的时候还能正常启动,但是突然今天使用该命令结果如下图。本人也尝试过网上的一些方法,包括重装jdk,重装neo4j,删除python环境,重新配置环境变量等。既没有报错也没有继续往下执行。查询网络发现有这类问题的不多,并且没有解决方法。因为之前能正常启动,所以本人的环境配置的没有问题。最后无奈之下,本人决定重装系统。再重装系统之后,问题解决。这些方法均宣告无效。

2024-12-10 09:49:43 333

原创 基于RNN的文本分类

输出当前的隐藏状态。通过一个全连接层和激活函数将隐藏状态转换为情感标签(积极)。具有循环连接,使得网络能够在处理当前输入时考虑先前的输入,从而捕捉序列中的时序信息。最终隐藏状态包含整个句子的综合信息,通过全连接层和激活函数判断情感。逐步读取每个单词向量,通过一个激活函数计算新的隐藏状态。词向量表示:每个单词通过词嵌入转换为向量表示,作为。词向量表示:每个单词通过词嵌入转换为向量表示,作为。输入门:决定哪些新信息将被添加到单元状态中。遗忘门:决定从单元状态中丢弃哪些信息。输出门:决定当前隐藏状态的输出。

2024-11-04 21:54:23 506

原创 NLP-Beginner 任务四:基于LSTM+CRF的序列标注

本次使用的数据集为CONLI2003。数据集文件有train.txt dev.txt text.txt数据集共有4列,第一列为单词,第二列为词性标签,第三列为句法组块标签,第四列为命名实体标签。每行为一个单词。只有当同一类型的两个短语紧跟在一起时,第二个短语的第一个单词才会有标记B-type,以显示它开始了一个新短语。标记为O的表示不属于词组。. . O O。

2024-10-23 10:12:59 1620

原创 NLP-Beginner 任务三:基于注意力机制的文本匹配

本次的实现方法是按照中所提出的增强型顺序推理模型进行。(下图左半部分)

2024-09-24 20:27:13 357

原创 使用ChatGLM-6B进行P-Tuning微调实战

使用ChatGLM-6B进行P-Tuning微调

2024-09-21 11:47:55 1576 2

原创 NLP-Beginner 任务二:基于深度学习的文本分类

使用卷积神经网络(CNN)与随机初始化实现文本分类

2024-09-19 21:40:35 725

原创 NLP-Beginner 任务一:基于机器学习的文本分类

基于机器学习的文本分类

2024-09-17 19:14:48 574 1

原创 使用Cpolar内网穿透工具将部署在本地的大模型发布到公网

使用Cpolar内网穿透工具将部署在本地的大模型发布到公网

2024-09-12 19:02:12 275

原创 大模型LoRa微调训练曲线图分析:train_acc出现剧烈抖动

如图,在训练集上,train_acc出现剧烈抖动,原因是训练的batch_size太小。我这里的batch_size为1,如果调高一些,acc曲线图震荡的情况将会得到改善。

2024-09-06 20:37:13 381

原创 神经网络训练曲线分析:loss与val_loss 先上升后下降

其原因是:带momentum的方法训练,可看作在参数值和momentum组成的二元组上,每步乘一个矩阵,然后加一个噪音。不发散,要求这个矩阵的特征值范数小于1.但是,可能有复特征值和复特征向量。所以,虽然系数在衰减,但复的部分可能被变换到实的部分来,就出现初期loss上升的情况,直到模最大的系数被衰减到1以下。综上,初期loss上升,不一定发散,是正常的。在不带momentum的情况下,一般不应该出现这种情况。如图,对于val_loss和train_loss在训练初期出现上升,而后逐渐下降的情况是。

2024-09-06 20:30:44 1014 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除