- 博客(76)
- 资源 (1)
- 收藏
- 关注
原创 大模型文本分类任务——提示词优化建议
在自然语言处理(NLP)领域,大型模型已展现出卓越的性能,涵盖了包括判别式任务和生成式任务在内的多种传统NLP任务。尽管基础NLP大模型的表现已相当出色,但在特定工业领域或场景中,对准确率的要求可能更为严苛。当然,如果上述建议仍未能满足要求,我们可以在后期对错误案例进行单独分析,或者切换至符合条件的其他大型模型。这两种方案适用于不同的场景:当场景对准确率的要求极高,且领域知识包含大量专业术语时,进行模型微调是必要的;二、明确指令要求,不仅要清晰地表述期望大模型执行的任务,还需指示其判断和思考的过程及依据。
2024-09-18 15:57:34 307
原创 windows上进行git初始化时报错:fatal: unknown write failure on standard output
命令时遇到 “unknown write failure on standard output” 错误,这通常指示在尝试创建新的 Git 仓库时,有一些底层的写入问题。这个工具的下载可能还有些不方便,可以到我的分享中下载,路径是:https://download.csdn.net/download/weixin_36893273/89381366。检查您的 Git 配置,特别是与编辑器或 diff 工具相关的配置。确保您的 Git 版本是最新的,或者至少是兼容的版本。如果是,您需要释放一些空间才能继续。
2024-05-31 15:47:56 2035 1
原创 python项目中的日志定义
以上方法,简单 的创建了一个获取logger的方法,更个性化或者更复杂的配置可以参考官方文档:https://docs.python.org/zh-cn/3/library/logging.html。python日志定义,包含配置文件,和日志实例创建方法。一、日志创建方法,创建一个loger实例。
2024-05-31 14:17:41 233 1
原创 如何让大模型更聪明?
另一方面,这个架构对于硬件的依赖是很深的,可以看到,现在的大模型越来越依赖参数量的大小,从而对硬件的依赖也越来越深, 巨大的参数量代表着训练和推理对机器资源的要求更高,更大。比如 2010年以前大家更多的是使用机器学习算法, 它的优点是可解释性更强,但是机器学习算法对于CV和NLP的支持并不是很好,当时的NLP和CV领域大多数还是用的专家系统或者规则, 当时也有LSTM和CNN等深度学习模型,但是由于算力的局限性,造成了一直没有在工业界普遍的应用。那么,如何让大模型变得更聪明呢?
2024-05-27 19:48:31 319
原创 开源大模型与闭源大模型,你更看好哪一方?
开源:包括模型源码开源, 论文或者技术文章开源, 预训练的参数也开源,目前比较流行的大模型开源网站包括 huggingface,国内的魔搭社区等闭源:只提供api接口或者web访问服务,一般有公司运营优化。服务分为免费版和收费版。
2024-05-25 13:49:27 1356 1
原创 python项目中的配置文件定义
这种方法适用于小项目,方便高效,也是我常用的方式,使用方便,直接import就可以;但是缺点也很明显,不容易拓展。...
2024-05-22 19:52:23 503
原创 ElasticSearch的python api以及dev tool方式的基本操作
如果没有额外的安全验证,需要指定的内容包括:集群ip地址(list类型),端口号(每个节点的端口号可能不同,这里是字符串,代表所有节点的端口号是一样的),用户名,密码。如果你的Elasticsearch集群启用了安全性功能,你可能需要确保你的Kibana实例已经使用具有足够权限的用户进行了认证,以便能够执行删除索引的操作。es的查询方式很灵活,可以单独写一篇文章, 就先不列在这里面了,它可以模糊查询,可以计算文档距离,也可以精确查询,可以说非常丰富灵活。在你的Web浏览器中打开Kibana的Web界面。
2024-05-11 17:00:34 1079 5
原创 stable diffusion WebUi本地安装
Stable Diffusion是一种先进的文本到图像的生成模型,它可以根据给定的文本输入生成高度逼真的图像。Stable Diffusion模型因其高效性和灵活性,在AI图像生成领域引起了广泛关注,并在实际应用中展示了其强大的能力。随着技术的不断发展,Stable Diffusion预计将在更多领域发挥重要作用,推动机器学习和深度学习的进步。
2024-05-11 14:10:58 507 1
原创 windows11获取笔记本电脑电池健康报告
可以看到当前完全充电的容量是大于电池设计容量的,如果 完全充电的容量不足设计容量的30%的话,可能电池需要换了。测量误差:可能是由于测量设备或方法的不准确导致的误差。更新的设计容量:电池可能经过了技术更新,制造商提高了电池的设计容量,但用户所知的设计容量信息还未更新。电池老化补偿:一些智能设备或电池管理系统(BMS)可能会尝试通过算法补偿电池老化导致的容量损失,从而使得显示的完全充电容量看起来比实际设计容量要高。
2024-05-08 13:52:29 3841 2
原创 首发!Llama3纯本地部署攻略!中文方法!
完成了LLAMA3的模型部署,从测试的结果可以看到, llama3的基础模型对于中文的支持并不好,我们的问题是中文,它却返回了英文的结果,原因可能是因为它的训练集有15个T但是其中95%是英文,想要它支持中文更好,还需要使用中文的训练集进行微调,可喜的是,微调llma系列的中文训练集并不少(可能是因为llama系列都有这个问题),后续我会接着对llama3进行微调, 待续。。。
2024-04-22 14:07:30 14707 6
原创 安装CUDNN详细过程
cuDNN(CUDA Deep Neural Network library)是由NVIDIA开发的深度学习GPU加速库。cuDNN包含了许多针对神经网络操作进行高度优化的函数,旨在使深度学习框架能够在NVIDIA的GPU上实现最佳性能,这个库提供了高效计算和加速,支持包括卷积神经网络在内的多种深度学习网络,并兼容多种常见的深度学习软件,如CNTK、Caffe、Theano、Keras、TensorFlow等。
2024-04-15 17:24:46 9105
原创 微信签名和微信名真的反应人的性格吗?
微信签名仿佛成了一种心理暗示,反映出人们对美好品质的向往和追求,同时也揭示了他们在现实生活中所缺乏的。经过我多年的观察和总结,发现微信签名或者微信名有个特点,好像生活中越缺少什么,签名就会越写什么。签名是财源广进,八方来踩的可能是缺钱。签名是心静如水的通常生活中容易着急。签名是海纳百川的通常生活中很狭隘。签名是自强不息的通常生活中很懒惰。有的人签名是一首诗,可能文化不高。签名是知足常乐的通常生活中很贪。签名是舍得,这个人生活中很抠门。
2024-04-04 18:35:25 180
原创 paddlepaddle模型转换onnx指导文档
因为安装 完成paddlepaddle后还需要安装其他依赖,所以我们加上 -i 指定国内的pip源。cuda驱动版本为516.94。报错内容: cudnn没有装!成功生成onnx文件。
2024-04-04 17:13:33 1069
原创 tensflow模型转onnx实践
TensorFlow™是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief [1]。Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究 [1-2]。
2024-04-03 17:07:20 1585
原创 glm2大语言模型服务环境搭建
ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性:更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。
2024-04-03 16:22:22 1034
原创 GLM论文研读
目前已经发展出多种预训练模型,包括自编码模型(如BERT)、自回归模型(如GPT)和编码器-解码器模型(如T5)。然而,这些模型并未在自然语言理解(NLU)、无条件生成和条件生成这三类任务中都达到最佳表现。为此,我们提出了一个基于自回归式空格填充的通用模型(GLM)以应对这一挑战。GLM通过加入二维位置编码,并允许以任意顺序预测片段,优化了空格填充预训练,这使得其在NLU任务上的性能优于BERT和T5。同时,GLM可以通过调整空白数量和长度,针对不同类型的任务进行预训练。
2024-04-02 11:16:35 1938 3
原创 基于Pytorch+昇腾NPU部署baichuan2-7B大模型
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用2.6 万亿Tokens 的高质量语料训练。Baichuan 2 在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。它基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。项目地址预训练模型modelscope硬件要求:NPU:8 x Ascend NPUsModelLink旨在为华为昇腾芯片。
2024-04-02 11:12:23 3207 11
原创 昇腾glm3大模型lora微调及推理
ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型,更完整的功能支持,更全面的开源序列。
2024-03-29 17:31:26 1519 1
原创 pytorch快速入门中文——07(TensorBoard)
在中,我们向您展示了如何加载数据,如何通过定义为nn.Module子类的模型提供数据,如何在训练数据上训练该模型以及在测试数据上对其进行测试。为了了解发生的情况,我们在模型训练期间打印一些统计数据,以了解训练是否在进行中。但是,我们可以做得更好:PyTorch 与 TensorBoard 集成在一起,TensorBoard 是一种工具,用于可视化神经网络训练运行的结果。本教程使用说明了其某些功能,可以使用将其读入 PyTorch。我们将从。
2023-06-29 09:58:39 1547
原创 pytorch快速入门中文——06(torch.nn)
现在,我们有了一个通用的数据管道和训练循环,您可以将其用于使用 Pytorch 训练许多类型的模型。要了解现在可以轻松进行模型训练,请查看示例笔记本。当然,您需要添加很多内容,例如数据扩充,超参数调整,监控训练,迁移学习等。这些功能可在 fastai 库中使用,该库是使用本教程中所示的相同设计方法开发的,为希望进一步推广其模型的从业人员提供了自然的下一步。我们承诺在本教程开始时将通过示例分别说明torch.nnDataset和DataLoader。
2023-06-29 09:40:19 840
原创 pytorch快速入门中文——05
在幕后,每个原始的 Autograd 运算符实际上都是在张量上运行的两个函数。正向函数从输入张量计算输出张量。反向函数接收相对于某个标量值的输出张量的梯度,并计算相对于相同标量值的输入张量的梯度。在 PyTorch 中,我们可以通过定义的子类并实现forward和backward函数来轻松定义自己的 Autograd 运算符。然后,我们可以通过构造实例并像调用函数一样调用新的 Autograd 运算符,并传递包含输入数据的张量。在此示例中,我们将模型定义为而不是,其中是三次的勒让德多项式。
2023-06-29 09:30:00 644
原创 pytorch快速入门中文——04(训练图片分类器)
之前从“神经网络”部分复制神经网络,然后对其进行修改以获取 3 通道图像(而不是定义的 1 通道图像)。让我们使用分类交叉熵损失和带有动量的 SGD。
2023-06-28 17:32:21 1582
原创 pytorch快速入门中文——03
您只需要定义forward函数,就可以使用autograd为您自动定义backward函数(计算梯度)。您可以在forward函数中使用任何张量操作。模型的可学习参数由返回让我们尝试一个32x32随机输入。注意:该网络的预期输入大小(LeNet)为32x32。要在 MNIST 数据集上使用此网络,请将图像从数据集中调整为32x32。注意torch.nn仅支持小批量。整个torch.nn包仅支持作为微型样本而不是单个样本的输入。例如,nn.Conv2d将采用的 4D 张量。如果您只有一个样本,只需使用。
2023-06-28 17:20:34 1010
原创 pytorch快速入门中文——02
是 PyTorch 的自动差分引擎,可为神经网络训练提供支持。在本节中,您将获得有关 Autograd 如何帮助神经网络训练的概念性理解。
2023-06-28 17:02:36 1143
原创 pytorch快速入门中文——01
无缝替换NumPy,并且通过利用GPU的算力来实现神经网络的加速。通过自动微分机制,来让神经网络的实现变得更加容易。
2023-06-28 16:56:08 1266
原创 python中的函数——笔记
不仅Python函数是真正的对象,任何Python对象都可以表现得像函数。为此,只需实现实例方法__call__。实现__call__方法的类是创建函数类对象的简便方式,此时必须在内部维护一个状态,让它在调用之间可用,例如BingoCage中的剩余元素。装饰器就是这样。装饰器必须是函数,而且有时要在多次调用之间“记住”某些事[例如备忘(memoization),即缓存消耗大的计算结果,供后面使用。创建保有内部状态的函数,还有一种截然不同的方式——使用闭包。
2023-03-07 09:58:06 468 1
原创 python的文本和字节序列
可以肯定的是,某些字节流不是ASCII,因为其中包含大于127的字节值,而且制定UTF-8和UTF-16的方式也限制了可用的字节序列。因此,从Python 3的str对象中获取的元素是Unicode字符,这相当于从Python 2的unicode对象中获取的元素,而不是从Python 2的str对象中获取的原始字节序列。:编码是在码位和字节序列之间转换时使用的算法。一种重要的编码,是其他编码的基础,例如cp1252和Unicode(注意,latin1与cp1252的字节值是一样的,甚至连码位也相同)。
2023-03-06 10:12:26 594
原创 python字典和集合——笔记
也就是说,如果有一个类继承了dict,然后这个继承类提供了__missing__方法,那么在__getitem__碰到找不到的键的时候,Python就会自动调用它,而不是抛出一个KeyError异常。如果给这个类一个映射,它会返回一个只读的映射视图。因为Python会设法保证大概还有三分之一的表元是空的,所以在快要达到这个阈值的时候,原有的散列表会被复制到一个更大的空间里面。1.1如果一个对象是可散列的,那么在这个对象的生命周期中,它的散列值是不变的,而且这个对象需要实现__hash__( )方法。
2023-03-05 12:49:31 626
原创 python中的序列——笔记
ABC语言时一个致力于为初学者设计编程环境的长达十年的研究项目。Python也从ABC那里继承了用统一的风格去处理序列数据这一特点。不管是哪种数据结构,字符串、列表、字节序列、数组、XML元素,抑或是数据库查询结果,它们都共用一套丰富的操作:迭代、切片、排序,还有拼接。在切片和区间操作里不包含区间范围的最后一个元素是Python的风格,这个习惯符合Python、C和其他语言里以0作为起始下标的传统。这样做带来的好处如下。
2023-02-28 21:03:59 1197
原创 【论文学习】RNN Encoder–Decoder机器翻译
在本文中,作者提出了一种称为RNN编码器-解码器的新型神经网络模型-由两个循环解码器组成神经网络。一个RNN作为编码器将一系列符号编码为固定长度的向量表示,另一个RNN作为解码器将固定长度的向量表示形式解码为另一个符号序列。所提出模型的编码器和解码器是联合训练的,最大化在给定源序列的情况下得出目标序列的条件概率。通过使用RNN编码器- 解码器计算的短语对的条件概率作为现有对数线性中的附加功能模型。
2022-10-11 14:56:36 1453
原创 torch.nn.utils.rnn下面pack_padded_sequence和pad_packed_sequence方法
这个函数主要做了两件事: pad 和封装,因为在rnn模型中,一般先将batch中的数据按照一个时间步一个时间步喂入模型的,这个包的主要作用就是将按照样本堆叠的数据,抽取出时间步这个维度重新堆叠。batch_first: batch 是否在第一位,默认值是False,上面的例子指定为了True,因为是二维,方便观察理解,一般放入lstm或者gru是需要时间步放在第一位的。需要注意的是,默认条件下,我们必须把输入数据按照序列长度从大到小排列后才能送入 pack_padded_sequence ,否则会报错。.
2022-08-11 11:14:06 1161
原创 随笔记录——pandas 中 Dataframe.to_dict()
在工作中,使用pandas时,常常需要将dataframe中的数据按照指定的格式输出给下游使用,很多时候,下游指定的格式并不是很特别,而是比较常见的,这时,我们就不需要自己专门定义方法去处理了,可以先看一下有没有现成的方法可以调用,会节省我们很多时间,提高我们程序的效率。下面我介绍一下dataframe的一个格式化输出的方法,to_dict()1、 使用默认的to_dict()格式化输出df = pd.DataFrame({'col1': [1, 2], 'col
2022-03-30 14:21:30 2820
BGE系列模型原论文,rag中的rerank模型
2024-07-11
高效进行数据科学工作的python库和一些trick
2024-06-25
知识图谱发展史及关键技术
2024-06-13
c++ primer 第六版pdf+代码实现
2024-06-03
远程ssh连接工具MobaXterm,完全免费,可以拖动传输文件,及教程汇总
2024-05-31
Visual Basic 语言学习资料
2024-05-29
利用python进行科学计算工具指南
2024-05-27
numpy-pandas-matplotlib使用指南,都是一些实例,且全部是jupyter文件,方便运行查看效果
2024-05-27
这个文档介绍了,如何在arm架构的系统机器上面安装python环境, 我们首先安装miniconda,方便管理python的多版
2024-05-25
fastgestures安装包,模拟mac的触控板收拾,两指代表右击, 三指拖拽
2024-05-21
chatgpt4的免费api,还支持以下模型:gpt-4-all,gpt-3.5-turbo,gpt-3.5-turbo-16k
2024-05-15
python少儿编程课程代码实现-地址:https://kidscancode.org/lessons/
2024-05-15
近期的一些agent大模型产品,包括官方服务的页面
2024-05-11
总结了一系列的agent大模型论文
2024-05-11
使用python语言编程, 使用matplotlib做可视化,將排序算法用图像的方式展现出来排序过程
2024-05-08
适合初学者学习的优秀项目:c/c++/python/java等等
2024-04-30
python语言学习-python编程100练,在代码中实际进行练习
2024-04-30
elasticsearch查询模版-模糊查询,多字段查询,相似度计算等
2024-04-29
神经网络与深度学习课件和pdf文件
2024-04-29
python世界银行公开数据下载爬虫
2024-04-29
设计模式python模版
2024-04-29
斯坦福cs223-数据结构课件
2024-04-28
强化学习经典课程-斯坦福大学cs234课件
2024-04-28
学生成绩管理系统-C++版本
2024-04-28
llama3优秀的prompt-优秀的prompt堪比微调效果
2024-04-28
正则表达式学习-正则语法
2024-04-28
总结的学习资料nlp算法原理-word2vector-bert等
2024-04-28
jena语义网络开发框架
2024-04-27
经典书籍-强化学习源码实现
2024-04-27
python3经典代码模版-cookbook源码
2024-04-27
机器学习经典-统计学习方法主要章节ppt
2024-04-27
整理的关于少儿编程的学习路径,以及如何在小升初,初升高和大学充分的利用起来编程经验的优势
2024-04-26
meta(原facebook)开源无限token大模型-MEGALODON
2024-04-24
由meta开源llama模型 ,系列论文,包括llama1, llama2, tinyllama
2024-04-24
llama3-中文微调训练集,让llama3更懂中文
2024-04-22
BEG模型原始论文:C-Pack: Packaged Resources To Advance General Chinese
2024-04-18
EetroMAE原论文
2024-04-18
国内可以用的chatgpt网站汇总以及各个网站的优劣对比,速度对比,性能对比
2024-04-17
sql server2008安装教程-带详细图片和每一步讲解
2024-04-17
MySQL安装配置教程-带详细配置图片版本
2024-04-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人