- 博客(30)
- 收藏
- 关注
原创 大模型LL04 微调prompt-Tuning方法入门(背景与发展)
依赖人工设计的特征和规则,结合统计学模型解决NLP任务。需要大量标注数据和领域知识,特征提取繁琐(如词性标注、句法分析):利用神经网络自动学习特征,减少人工干预。:通过无监督预训练学习通用语言表示,再通过少量标注数据微调适配下游任务。:预训练成本高,微调可能过拟合小数据集:重构下游任务形式以匹配预训练目标(如完形填空),实现少样本/零样本学习。:Prompt-Tuning、P-Tuning(连续提示)、LoRA(参数高效微调)。:从特征工程→架构工程→目标工程→Prompt工程,人力投入逐渐减少。
2025-08-07 21:53:20
460
原创 NLP自然语言处理 03 Transformer架构
将模型分为多个头, 可以形成多个子空间, 让模型去关注不同方面的信息, 最后再将各个方面的信息综合起来得到更好的效果.在这里QKV是先经过三个不同的linear层,再分多头,然后每个头的QKV进行注意力计算再拼接,最后经过一个linear层。
2025-08-05 21:51:58
945
原创 NLP自然语言处理 02 RNN及其变体
Bi-GRU与Bi-LSTM的逻辑相同, 都是不改变其内部结构, 而是将模型应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出. 具体参见上小节中的Bi-LSTM.
2025-08-05 20:48:59
643
原创 大模型LLM 01背景及主流大模型介绍
大语言模型 (英文:Large Language Model,缩写LLM) 是一种基于深度学习的自然语言处理的人工智能模型, 旨在理解和生成人类语言. 通常使用Transformer架构,通过大规模数据训练,具备文本理解、生成、推理、对话等能力。
2025-08-04 08:44:16
724
原创 NLP复习
它需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果, 这个结果代表query在key和value作用下的注意力表示. 当输入的Q=K=V时, 称作自注意力计算规则.print(list(zip(a, b))) # 输出: [(1, 'a'), (2, 'b'), (3, 'c')][1,3,5](@ref)一般是在大量的语料下训练完成的。引入Attention的原因1:长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。
2025-07-22 13:38:34
844
原创 NLP自然语言处理 04 transformer架构模拟实现
导包位置编码器部分词嵌入WordEmbedding位置编码模型PositionEncoding编码器部分。
2025-07-09 15:40:40
964
原创 NLP自然语言处理 02 RNN及其变体
根据反向传播算法和链式法则, 梯度的计算可以简化为以下公式其中sigmoid的导数值域是固定的, 在[0, 0.25]之间, 而一旦公式中的w也小于1, 那么通过这样的公式连乘后, 最终的梯度就会变得非常非常小, 这种现象称作梯度消失. 反之, 如果我们人为的增大w的值, 使其大于1, 那么连乘够就可能造成梯度过大, 称作梯度爆炸.Bi-LSTM即双向LSTM, 它没有改变LSTM本身任何的内部结构, 只是将LSTM应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出.
2025-07-07 19:52:36
1732
原创 机器学习06 集成学习
算法思想:有放回的随机抽样产生不同的训练集,从而训练不同的学习器,通过平权投票、多数表决的方式决定预测结果多个模型独立训练,投票决定结果(稳)
2025-06-30 21:14:45
744
原创 深度学习04 卷积神经网络CNN
卷积神经网络可以简单理解为包含卷积层和池化层的神经网络模型,主要用于图形方面"""参数说明:in_channels: 输入通道数,RGB图片一般是3out_channels: 输出通道,也可以理解为卷积核kernel的数量kernel_size:卷积核的高和宽设置,一般为3,5,7...stride:卷积核移动的步长整数stride:表示在所有维度上使用相同的步长 stride=2 表示在水平和垂直方向上每次移动2个像素。
2025-06-30 21:09:45
1911
2
原创 深度学习03 人工神经网络ANN
人工神经网络( Artificial Neural Network, 简写为ANN)也简称为神经网络(NN),是一种模仿生物神经网络结构和功能的计算模型,人脑可以看做是一个生物神经网络,由众多的神经元连接而成.各个神经元传递复杂的电信号,树突接收到输入信号,然后对信号进行处理,通过轴突输出信号.当电信号通过树突进入到细胞核时,会逐渐聚集电荷。达到一定的电位后,细胞就会被激活,通过轴突发出电信号。
2025-06-30 21:08:00
1203
原创 NLP自然语言处理 01 文本预处理
词嵌入通过将词汇表中的单词或短语转换为固定长度的实数向量,使得语义相近的词在向量空间中距离更近。例如,“猫”和“狗”的向量相似度高于“猫”和“汽车”。
2025-06-30 19:37:57
839
原创 深度学习02 pytorch框架
步骤:导包,创建数据,数据分批,创建模型,创建损失函数对象用于计算损失值,创建SGD优化器对象更新后续模型参数,训练模型并计算预测值和损失值,使用梯度下降逐渐减少损失值,最后得出权重w与偏差值b.torch.Tensor(data=, size=()) 既能指定数据,又能指定形状。使用arange,linspace,创建线性张量,使用rand,randn,randint创建随机或整数张量。
2025-06-13 21:31:55
1681
原创 机器学习07 聚类算法
人以类聚,物以群分,聚类算法就是在没给出标签的情况下对数据进行分组,根据样本之间的相似性,将样本划分到不同的类别中,是一种无监督学习算法。
2025-06-03 20:21:14
234
原创 机器学习03 线性回归
线性回归是一种统计建模方法,用于分析因变量(目标变量)与一个或多个自变量(预测变量)之间的线性关系。其核心假设是变量间存在线性关系,通过拟合一条直线(或超平面)来预测或解释数据。可以看做一个函数,其中预测值为y,已知值为x,有多少个已知条件就有多少个x同时,y与x的关系也可以对应x的n次幂即求y=f(x1,x2,x3,,,,,xn)的关系也就是y=ax1**n+bx2**n+cx3**n........+b(b为常量)不过一般也没这么复杂,下面讲解一下基础一元线性回归,也就是日常常见的身高体重问题。
2025-05-28 15:58:05
693
原创 机器学习02 KNN算法
网格搜索:在模型中有很多超参数,使用网格搜索可以划定一个超参数集合,从中找出最优的超参数,配合交叉验证兼职就是强强联合。交叉验证是一种数据集的分割方法,将数据集划分为n份,其中一份做验证集,n-1份做训练集,依次训练模型。4.进行多数表决,统计K个样本中哪个类别的样本个数最多。欧式距离:所有维度差的平方合的开方。曼哈顿距离:所有维度差的绝对值的合。最后可以输出所有参数的正确率数据,并选择最好的一个。1.计算未知样本与每个训练样本的距离。4.计算最近K个样本的目标值的平均值。3.取出最近的K个训练样本。
2025-05-27 20:17:22
439
原创 机器学习01 概述
基于模型的学习,通过编写机器学习算法,让机器自己从历史数据中获得经验.训练模型。无标签:对样本间相似性样本进行聚类,发现事务内部结构与关系。基于规则的预测:程序员根据经验手工的ifelse方式进行预测。回归:标签连续可细分,如房价,工资。深度学习:深度神经网络,大脑仿生设计,设计一层一层神经元模拟万物。分类:标签不连续不可细分,如猫狗。部分有标签,节省成本。人工智能常见术语:样本/特征/标签/数据集划分方法。机器学习:让机器自动学习,而不是基于规则的编程。样本:一行数据就是一个样本,多个样本组成数据集。
2025-05-24 20:17:54
233
原创 数据分析01 Numpy
与Excel,PowerBI,Tableau等软件比较Excel有百万行数据限制PowerBI ,Tableau在处理大数据的时候速度相对较慢Excel,Power BI 和Tableau 需要付费购买授权Python功能远比Excel,PowerBI,Tableau等软件强大Python跨平台,Windows,MacOS,Linux都可以运行总结:python就是牛Python 语言的一个扩展程序库。是一个运行速度非常快的数学库.Pandas基于numpy发展Matplotlib。
2025-05-16 21:10:51
320
原创 MySQL Pycharm链接数据库 pymysql全套教程
软件安装就不多bb了,这边推荐一个傻瓜式集成软件,小皮:一件部署各种环境,包括但不限于MySQL、Redis、ningx、并且可以随时切换且免费官网:https://old.xp.cn/具体如图、详细操作手册还是看官方的吧、更全面。
2025-05-12 20:33:06
1043
原创 Python进阶1.5 数据结构和算法(基础)
数据结构:数据元素之间不是独立的,存在特定的关系,这些关系便是结构。数据结构指数据对象中数据元素之间的关系。算法:为了满足业务需求实现业务目的的各种方法和思路就是算法。
2025-05-10 20:19:53
656
原创 Python进阶1.4 正则表达式 迭代器 生成器
可以从整个字符串任意匹配,但是匹配成功只返回符合规则的第一个结果,放到re.Match对象并且用group()获取匹配结果,如果匹配失败,返回None。必须从头开始匹配,匹配成功返回re.Match对象并且用group()获取匹配结果,如果匹配失败,返回None。迭代器(Iterator):重写__iter__()和__next__()这个两个模式方法的类,就是迭代器。可以从整个字符串中任意匹配,可以返回所有符合规则的结果,放到列表中返回,如果匹配失败,返回空列表。底层会自动判断结束条件。
2025-05-08 20:36:08
979
原创 Python进阶1.3 网络编程 多任务:多线程多进程
tcp协议是面向连接的,可靠的,基于字节流的传输层协议。端口号 根据端口号找到对应进程的端口 端口是数据传输的通道。udp协议的无连接,不可靠的传输层协议。socket套接字 只要网络中进行通信 就需要基于socket进行传输。协议 根据协议规定的通讯规则,可以进行网络通讯。ip地址 根据ip找到网络中的对应的网络设备。项目实战:基于tcp协议开发一个建议的交流程序。使用时先开启服务端 再开启客户端。
2025-05-06 20:14:39
251
原创 Python进阶1.2 闭包 装饰器 深浅拷贝
在函数嵌套的前提下,内部函数使用了外部函数的变量,并且外部函数返回了内部函数,我们把这个使用外部函数变量的内部函数称为闭包。
2025-05-05 19:51:20
575
原创 Python入门1.2 if判断 while循环 for循环 嵌套 字符串操作
什么是循环:有条件地重复地做一件事,每一次做的事情不同但类似。循环的作用是什么:让代码高效的重复执行循环的种类:在Python中,循环一共分为两大类:while循环与for循环如何选择使用什么循环呢?①:对于循环次数固定的(已知)情况下,建议使用for循环, 例如: 1~100循环②:对于循环次数未知(不确定)的情况下,建议使用while循环, 例如: 猜数字游戏字符串是 Python 中最常用的数据类型。我们一般使用引号来创建字符串。创建字符串很简单,只要为变量分配一个值即可。
2025-04-30 17:20:37
136
原创 Python进阶1.1.2面向对象02 继承、多态、静态方法补充
如果一个类A使用了另一个类B的成员(属性和方法),我们就可以说A类继承了B类。
2025-04-30 17:18:54
1011
原创 Python入门1.1 注释 变量 输入输出 数据类型转换 运算符
代码中的等于往往是赋值-即把右边的值赋予左边 ==则是用于表示判断变量名称 = 变量的值注:等号的两边都要保留一个空格,其实Python中建议符号的两边尽量都要保留一个空格值得注意的是,Python会自动确认变量类型,字符串默认str,整数默认int,小数默认float等等变量类型是可以手动转换的,但需要符合变量规则如int可以手动转换为str。这个时候str_num就可以切片了在Python中,记住:变量一定要先定义,后使用,否则会报错。address = '北京市顺义区京顺路99号'调用或。
2025-04-29 21:07:51
927
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅