- 博客(103)
- 收藏
- 关注
原创 详细介绍Transformer!
Multi-head Attention和单一head的Attention唯一的区别就在于, 其对特征张量的最后一个维度进行了分割, 一般是对词嵌入的embedding_dim=512进行切割成head=8, 这样每一个head的嵌入维度就是512/8=64, 后续的Attention计算公式完全一致, 只不过是在64这个维度上进行一系列的矩阵运算。多个头进行attention计算最后再综合起来,类似于CNN中采用多个卷积核的作用,不同的卷积核提取不同的特征, 关注不同的部分,最后再进行融合。
2024-11-14 14:58:44
1245
63
原创 LLaMA-Factory全流程训练模型
我们在 LLaMA-Factory/examples下创建 train.yaml 文件,这是微调训练模型的配置文件。整个训练数据集被模型完整遍历的次数,一个 epoch 包含多个批次(batch)。模型参数梯度的范数,反映梯度的大小,用于监控梯度爆炸或梯度消失的问题。: 训练过程中总共计算的浮点运算次数(2906404 亿次浮点运算)。: 每秒处理的批次数(5.277 个批次/秒)。: 训练的总轮次(3.0 个 epoch)。: 训练过程中的平均损失值(1.0846)。随后会生成一些指引,默认安装就行。
2024-11-11 23:35:18
2212
48
原创 词嵌入方法(Word Embedding)
首先, 如果所有参与训练的token被100%的[MASK], 那么在fine-tunning的时候所有单词都是已知的, 不存在[MASK], 那么模型就只能根据其他token的信息和语序结构来预测当前词, 而无法利用到这个词本身的信息, 因为它们从未出现在训练过程中, 等于模型从未接触到它们的信息, 等于整个语义空间损失了部分信息. 采用80%的概率下应用[MASK], 既可以让模型去学着预测这些单词, 又以20%的概率保留了语义信息展示给模型.:指定上下文窗口的大小为 5。
2024-11-06 15:37:59
1876
62
原创 vLLM推理部署Qwen2.5
借助vLLM,构建一个与OpenAI API兼容的API服务十分简便,该服务可以作为实现OpenAI API协议的服务器进行部署。适用于大批量Prompt输入,并对推理速度要求高的场景,吞吐量比HuggingFace Transformers高10多倍。它旨在提供高性能、低延迟的推理服务,并支持多种硬件加速器,如 GPU 和 CPU。现在的Ubuntu是最简单配置的,如果使用wget等命令,需要使用apt-get下载再使用。这是一款流行的文本生成Web界面工具,拥有多个交互界面,并支持多种模型后端。
2024-10-28 15:49:07
1244
51
原创 Chroma 向量数据入门
Chroma 使知识、事实和技能可插入 LLM,从而可以轻松构建 LLM 应用程序。。Chroma 使知识、事实和技能可插入 LLM,从而可以轻松构建 LLM 应用程序。Chroma是一个文档检索系统,它存储了一组文档以及它们相应的嵌入向量。当接收到嵌入向量后,Chroma会根据其内部的索引结构快速查找最相关的文档。
2024-09-26 16:38:10
1206
72
原创 Sentence Transformers 教程!
Sentence Transformers专注于句子和文本嵌入,支持超过100种语言。利用深度学习技术,特别是Transformer架构的优势,将文本转换为高维向量空间中的点,使得相似的文本在几何意义上更接近。
2024-09-23 17:22:22
2128
79
原创 Faiss向量数据库
Faiss(Facebook AI Similarity Search)向量数据库是由Facebook AI研究院开发的一种高效相似性搜索和聚类的库。Faiss不仅支持在高维空间中进行高效的相似性搜索,还能够在处理大规模数据集时展现出卓越的性能,尤其适用于图像检索、文本搜索、推荐系统和语音处理等多种应用场景。
2024-09-03 15:37:51
5602
112
原创 LLaMA Factory微调Llama3模型
是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过Web UI界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架。
2024-08-26 11:16:11
3118
97
原创 ChatGLM-6B微调推理实战
ChatGLM-6B是一个由清华大学和智谱AI联合研发的开源对话语言模型,它基于General Language Model(GLM)架构,具有62亿参数,并支持中英双语问答。结合模型量化技术,用户可以在消费级的显卡上进行本地部署。在INT4量化级别下,最低只需6GB显存即可运行。使用 pip 安装依赖:`pip install -r requirements.txt`,其中 `transformers` 库版本推荐为 `4.27.1`,但理论上不低于 `4.23.1` 即可。
2024-08-22 21:12:26
1210
75
原创 如何为本地python共享文件网页配置公网地址实现跨网络远程访问
本文主要介绍如何在Windows系统电脑上使用python这样的简单程序语言,在自己的电脑上搭建一个共享文件服务器,并通过cpolar创建的公网地址,打造一个可以随时随地远程访问的私人云盘。数据共享作为和连接作为互联网的基础应用,不仅在商业和办公场景有广泛的应用,对于个人用户也有很强的实用意义。也正因如此,大量数据共享软件被开发出来,云存储的概念也被重复炒作。对于爱好折腾的笔者来说,用最简单的工具找寻私人共享和存储解决方案,也是件很有趣的事。
2024-08-08 21:54:42
1250
90
原创 Langchain--如何使用大模型 2.0
我们除了可以使用Langchain进行模型对话、提示词创作、嵌入模型,还可以使用其他的组件对大模型封装使用,打造我们自己的大模型。
2024-07-29 21:54:40
2063
26
原创 LangChain--如何使用大模型
LangChain是一个用于构建和管理语言模型链的开源框架,旨在帮助开发者更高效地构建和部署复杂的自然语言处理(NLP)应用。LangChain自身并不开发LLMs,它的核心理念是为各种LLMs实现通用的接口,把LLMs相关的组件“链接”在一起,简化LLMs应用的开发难度。
2024-07-28 11:38:12
2396
25
原创 MySQL数据库安装使用
Key-Value结构存储: Key-value数据库是一种以键值对存储数据的一种数据库,类似Java中的map。结构化查询语言(Structured Query Language)简称SQL,是关系型数据库管理系统都需要遵循的规范,是数据库认识的语句。找到系统变量中的path变量,点击编辑,选择新建,将刚才的赋值的mysql文件的地址粘贴到文本框中,点击确定,完成环境变量配置。MySQL是一个关系型数据库管理系统,目前属于 Oracle 旗下产品,MySQL 是最流行的关系型数据库管理系统中的一个。
2024-07-24 10:53:07
1350
27
原创 【深度学习入门篇 ⑪】自注意力机制
将Query和Key分别计算相似性,然后经过softmax得到相似性概率权重,即注意力,再乘以Value,最后相加即可得到包含注意力的输出。:无论是源文本嵌入还是目标文本嵌入,都是为了将文本中词汇的数字表示转变为向量表示, 希望在这样的高维空间捕捉词汇间的关系。① 查询向量(Query向量):被用来和其它单词的键向量相乘,从而得到其它词相对于当前词的注意力得分。② 键向量(Key向量):序列中每个单词的标签,是我们搜索相关单词时用来匹配的对象。3个人工定义的重要概念,查询向量,键向量,值向量。
2024-07-23 09:32:09
1306
25
原创 Linux系统编程基础
借助虚拟化技术,我们可以在系统中,通过软件:模拟计算机硬件,并给虚拟硬件安装真实的操作系统。这样,就可以在电脑中,虚拟出一个完整的电脑,以供我们学习Linux系统。
2024-07-22 09:22:29
1103
17
原创 FastAPI入门
FastAPI是一个现代、快速的Python Web框架,用于快速构建API。它基于 Pydantic 和 Starlette,使得代码更加简洁且易于绶护。关键特性:快速:可与 NodeJS 和 Go 并肩的极高性能(归功于 Starlette 和 Pydantic)。最快的 Python web 框架之一。高效编码:提高功能开发速度约 200% 至 300%。更少 bug:减少约 40% 的人为(开发者)导致错误。智能:极佳的编辑器支持。处处皆可自动补全,减少调试时间。简单。
2024-07-21 14:03:57
1302
12
原创 网络编程中的TCP和UDP
TCP( Transmission control protocol )即传输控制协议,是一种面向连接、可靠的数据传输协议,它是为了在不可靠的互联网上提供可靠的端到端字节流而专门设计的一个传输协议。面向连接:数据传输之前客户端和服务器端必须建立连接可靠的:数据传输是有序的 要对数据进行校验Socket的英文原义是“孔”或“插座”,网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket。
2024-07-21 08:25:44
1469
15
原创 【深度学习入门篇 ⑩】Seq2Seq模型:语言翻译
今天我们进入 Seq2Seq 的领域,了解这种更为复杂且功能强大的模型,它不仅能理解词汇(Word2Vec),还能把这些词汇串联成完整的句子。
2024-07-20 18:33:31
1212
17
原创 【深度学习入门篇 ⑦】PyTorch池化层
池化层 (Pooling) 降低维度,缩减模型大小,提高计算速度. 即: 主要对卷积层学习到的特征图进行下采样(SubSampling)处理。
2024-07-16 21:23:18
1248
19
原创 【深度学习入门篇 ⑥】PyTorch搭建卷积神经网络
卷积神经网络是深度学习在计算机视觉领域的突破性成果,在计算机视觉领域,往往我们输入的图像都很大,使用全连接网络的话,计算的代价较高;另外图像也很难保留原有的特征,导致图像处理的准确率不高。卷积神经网络(CNN)是含有卷积层的神经网络,卷积层的作用就是用来自动学习、提取图像的特征。CNN网络主要有三部分构成:卷积层、池化层和全连接层构成,其中卷积层负责提取图像中的局部特征;池化层用来大幅降低参数量级(降维);全连接层类似人工神经网络的部分,用来输出想要的结果。
2024-07-15 12:09:02
952
26
原创 Vue组件化编程
使用Vue.extend(options)创建,其中options和new Vue(options)时传入的那个options几乎一。
2024-07-14 11:27:59
992
11
原创 【深度学习入门篇 ④ 】Pytorch实现手写数字识别
通过前面的学习,我们已经掌握了PyTorch API的基本使用,今天我们使用PyTorch实现手写数字识别案例!通过前面的内容可知,调用MNIST返回的结果中图形数据是一个Image对象,需要对其进行处理,为了进行数据的处理,接下来学习的方法~是PyTorch中用于图像预处理和增强的一个重要模块,它提供了多种对的方法,如裁剪、旋转、缩放、归一化等。这些方法可以单独使用,也可以通过类组合起来,形成复杂的预处理流程。
2024-07-11 09:41:13
1724
11
原创 【深度学习入门篇 ②】Pytorch完成线性回归!
🍊。上一部分我们自己通过torch的方法完成反向传播和参数更新,在Pytorch中预设了一些更加灵活简单的对象,让我们来构造模型、定义损失,优化损失等;那么接下来,我们一起来了解一下其中常用的API!nn.Module是 PyTorch 框架中用于构建所有神经网络模型的基类。在 PyTorch 中,几乎所有的神经网络模块(如层、卷积层、池化层、全连接层等)都继承自nn.Module。这个类提供了构建复杂网络所需的基本功能,如参数管理、模块嵌套、模型的前向传播等。__init__需要调用super。
2024-07-10 10:35:36
1165
9
原创 【深度学习入门篇①】手动完成线性回归!
🍊。大家好!今天我们将一起踏上一场探索深度学习的奇妙之旅,而我们的起点,就是线性回归这一经典而基础的算法。我将带大家从零开始,手动实现线性回归!
2024-07-10 09:34:44
1110
9
原创 易编橙:一个帮助编程小伙伴少走弯路的终身成长社群!
大家好,我是小森( ﹡ˆoˆ﹡ ),今天这篇博客的就是想告诉大家,我以星球嘉宾和社群共创官的身份加入易编橙·终身成长社群了。所以,我摊牌了嗨,大家好,我是小森( ﹡ˆoˆ﹡ )!易编橙·终身成长社群创始团队嘉宾橙似锦计划领衔成员阿里云专家博主腾讯云内容共创官CSDN人工智能领域优质创作者。
2024-07-09 16:40:44
1654
22
原创 Vue框架引入
1.1.vue是什么?Vue官网英文官网: https://vuejs.org/中文官网: https://cn.vuejs.org/vue是一套构建用户界面的渐进式javascript框架构建用户界面:将我们手里拿到的数据通过某种办法变成用户可以看见的界面前端工程师的职责:就是在合适的时候发出合适的请求,然后将数据展现在合适位置vue关注的就是你把数据给我,我怎么把它变成界面渐进式:vue可以自底向上逐层的应用。
2024-07-08 19:33:43
1287
30
原创 【机器学习】连续字段的特征变换
除了离散变量的重编码外,有的时候我们也需要对连续变量进行转化,以提升模型表现或模型训练效率。在之前的内容中我们曾介绍了关于连续变量标准化和归一化的相关内容,对连续变量而言,标准化可以消除量纲影响并且加快梯度下降的迭代效率,而归一化则能够对每条数据进行进行范数单位化处理,我们可以通过下面的内容进行标准化和归一化相关内容回顾。
2024-07-05 09:57:46
1335
31
原创 【neo4j图数据库】入门实践篇
neo4j是由Java实现的开源NoSQL图数据库。自从2003年开始研发,到2007年发布第一版。neo4j现如今已经被各行各业的数十万家公司和组织采用。neo4j实现了专业数据库级别的图数据模型的存储。与普通的图处理或内存级数据库不同,neo4j提供了完整的数据库特性,包括ACID事物的支持,集群支持,备份与故障转移等。这使其适合于企业级生产环境下的各种应用。neo4j的版本说明:企业版:需要高额的付费获得授权,提供高可用,热备份等性能。社区开源版:免费使用,但只能单点运行。
2024-07-02 16:24:36
1462
16
原创 【Kaggle】Telco Customer Churn 数据编码与模型训练
本节开始,我们将围绕此前已经处理好的数据来进一步来进行用户流失预测。当然,要进行尽可能精准的用户流失预测,就离不开特征工程、模型选择与训练、参数调优和模型融合这些环节。考虑到该数据集的建模目标有两个,其一是希望能够进行尽可能精准的预测,同时由于该案例也包含数据分析背景,要求模型结果也能够为业务人员在业务开展过程中提供具体指导意见,因此无论是在模型选型过程还是特征工程环节,我们都将同时纳入这两个因素进行综合考虑。本节我们将优先考虑具备模型可解释性的逻辑回归和决策树,这两个算法也是大多数在要求对结果进行解释的场
2024-07-02 09:26:27
1377
18
原创 【Kaggle】Telco Customer Churn 电信用户流失预测案例
我们将围绕Kaggle中的电信用户流失数据集(Telco Customer Churn)进行用户流失预测。在此过程中,我们将综合应用此前所介绍的各种方法与技巧,并在实践中提炼总结更多实用技巧。Stage 1.业务背景解读与数据探索在拿到数据(接受任务)的第一时间,需要对数据(也就是对应业务)的基本背景进行解读。
2024-07-01 19:35:08
2798
25
原创 Pandas中的数据转换[细节]
这里列出了一些常用的方法摘要。方法描述cat()连接字符串split()在分隔符上分割字符串rsplit()从字符串末尾开始分隔字符串get()索引到每个元素(检索第i个元素)join()使用分隔符在系列的每个元素中加入字符串在分隔符上分割字符串,返回虚拟变量的DataFramecontains()如果每个字符串都包含pattern / regex,则返回布尔数组replace()用其他字符串替换pattern / regex的出现repeat()
2024-06-27 09:32:36
1682
22
原创 Pyecharts入门
数据可视化 Pyecharts简介Apache ECharts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了;PyEcharts是Echarts的Python接口,。Pyecharts 环境搭建Pyeharts版本本系列Pyecharts版本采用1.9.0。
2024-06-25 08:36:38
1157
26
原创 Linux系统安装并运行Portainer结合内网穿透实现远程访问管理界面
本文主要介绍如何在本地部署Portainer可视化容器管理工具并结合cpolar内网穿透工具实现异地使用任意浏览器远程访问管理界面。Portainer 是一个轻量级的容器管理工具,可以通过 Web 界面对 Docker 容器进行管理和监控。它提供了可视化的界面,使得用户可以更加方便地管理 Docker 容器、镜像、网络和数据卷等资源。远程访问的好处是可以方便地管理远程的 Docker 容器和镜像,无需登录到远程服务器进行操作。
2024-06-20 17:12:40
1239
23
原创 机器学习归一化特征编码
此外,在L2正则化时,采用的表达式,其实相当于是各参数的平方和除以2,在求最小值时本质上和w的2-范数起到的作用相同,省去开平方是为了简化运算,而除以2则是为了方便后续求导运算,和2次方结果相消。因此,对于各种特殊的特征值,我们都需要对其进行相应的编码,也是量化的过程,这就要用到特征编码。将离散的数值或字符串,转化为连续的数值型数据。归一化是利用特征的最大最小值,为了方便数据处理,将特征的值缩放到[0,1]区间,对于每一列的特征使用min-max函数进行缩放,可以使处理过程更加便捷、快速,计算。
2024-06-13 21:25:03
1322
7
原创 Sklearn中逻辑回归建模
精确度,衡量对1类样本的识别,能否成功(准确识别出1)的概率,也正是由于这种力求每次出手都尽可能成功的策略,使得当我们在以精确度作为模型判别指标时,模型整体对1的判别会趋于保守,只对那些大概率确定为1的样本进行1类的判别,从而会一定程度牺牲1类样本的准确率,在每次判别成本较高、而识别1样本获益有限的情况可以考虑使用精确度。💢可是,这样的模型有意义吗?则该模型的准确率为98%,因为它正确地识别出来了测试集中的98个狗狗,只是错误的把2个猫咪也当做狗狗,所以按照准确率的计算公式,该模型有高达98%的准确率。
2024-06-13 10:32:35
1493
6
机器学习中的梯度下降算法
2024-05-28
虚拟机开不了机怎么解决呀
2023-09-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅