- 博客(324)
- 资源 (2)
- 收藏
- 关注
原创 大模型微调方法汇总
*量化是一种减少模型精度要求的技术,它将权重的值从浮点数转换为更低位的表示,从而减少模型的存储和计算需求**。- **原理**:P-tuning v2 是一种基于prompt的微调方法,它通过在模型的输入中添加一个可训练的prompt向量来调整模型的行为。- 用随机高斯分布初始化A,用全零矩阵初始化B。矩阵B的全零初始化,使得在训练最开始的一段时间,右路的结果会接近于0,这样模块的输出就基本上来自于左路,也就是大模型原有参数的计算结果,这使得模型优化的初始点就和原始的大模型保持一致。
2024-05-13 22:04:36
1084
原创 微调llama 3 — PEFT微调和全量微调
Ref: 微调llama 3 — PEFT微调和全量微调_llama3 微调原理-CSDN博客1、QLoRA 是量化的 LoRA 与 LLMs 的结合。要使用这种方法对 Llama 3 8B 进行微调,我们需要安装2、然后导入需要的pkgs3、如果你拥有较新的GPU,就可以使用数据类型以获得更好的训练稳定性,并使用来减少处理长序列时的内存消耗。下面的代码会自动检测GPU是否兼容、:4、然后,我们需要初始化并配置Tokenizer。通常,LLMs在预训练时不包含pad_token。然而,在微调过程中,由于我们
2024-05-13 17:26:38
1869
原创 知识图谱概述
知识图谱是一种结构化的知识表示方式,将实体、属性和关系以图形的形式进行表达和组织。它通过对知识进行结构化建模,将不同实体之间的关系进行编码形成一个图结构的知识网络。知识图谱的目标是将人类的知识整合到一个统一的框架中,以便机器可以理解和推理这些知识。实体、关系,schema 就是不同实体之间的共计有哪些关系。
2023-10-30 11:00:19
314
原创 吴恩达《面向开发者的提示词工程》
(三) 文本总结(summarizing) - 知乎总结或概括是LLM中的一个较为成熟的应用,可以将其结合到应用程序中,充分发挥其功能。
2023-09-03 23:48:16
479
原创 ChatGLM-6B+LangChain与训练及模型微调教程
Ref: 讲解视频吴恩达教授讲的【LangChain+ChatGLM-6B】LLM应用开发实践。
2023-09-03 21:12:27
1633
转载 2021-04-04
参考https://blog.csdn.net/ignoreyou/article/details/85132738 这篇文章给自己的黑苹果安装上深度学习环境。稍有修改环境软件环境:macOS Sierra 10.13.6GPU Driver: WebDriver-387.10.10.10.40.108CUDA Driver: cudadriver_396.148_macosCudaToolkit: cuda_9.2.148_macCUDNN: cudnn-9.2-osx-x64...
2021-04-04 12:59:11
547
原创 Python魔法方法总结及注意事项
1、何为魔法方法: Python中,一定要区分开函数和方法的含义; 1.函数:类外部定义的,跟类没有直接关系的;形式: def func(*argv): 2.方法:class内部定义的函数(对象的方法也可以认为是属性);分为两种: ① python自动产生的(魔法方法):一般形式为 __func__(),python会在对应的时机自动调用该函数; ② 人为自定义的方法:一般和普通函数没有区别,只是定义在了class中而已 3.方法与函数的区别: 方...
2020-05-24 19:41:46
600
原创 机器学习之特征选择方法
《机器学习》将特征选择分为了三种方法:分别是过滤式(filter) 、包裹式(wrapper)和嵌入式(embedded)。下面依据sklearn中的特征选择文档来叙述特征选择的几个方法。过滤式(filter)这类方法先对数据机进行特征选择,然后再训练学习器,特征选择的过程与后续学习器无关。1.移除低方差的特征:通过计算样本在不同特征上取值的方差来对特征经过过滤。通过 sel = VarianceThreshold(threshold=(.8 * (1 - .8))) 设置一个阈值,2.
2020-05-12 09:49:16
841
原创 深度学习中的多任务学习-multi-learning总结
多任务学习(Multi-task learning)的两种模式深度学习中两种多任务学习模式:隐层参数的硬共享与软共享。隐层参数硬共享,指的是多个任务之间共享网络的同几层隐藏层,只不过在网络的靠近输出部分开始分叉去做不同的任务。 隐层参数软共享,不同的任务使用不同的网络,但是不同任务的网络参数,采用距离(L1,L2)等作为约束,鼓励参数相似化。Hard 参数共享共享 Hard 参数是神经网络 MTL 最常用的方法,可以追溯到 [2]。在实际应用中,通常通过在所有任务之间共享隐藏层,同时保...
2020-05-11 17:37:04
7969
原创 深度学习训练时网络不收敛的原因分析总结
很多同学会发现,为什么我训练网络的时候loss一直居高不下或者准确度时高时低,震荡趋势,一会到11,一会又0.1,不收敛。 又不知如何解决,博主总结了自己训练经验和看到的一些方法。首先你要保证训练的次数够多,不要以为一百两百次就会一直loss下降或者准确率一直提高,会有一点震荡的。只要总体收敛就行。若训练次数够多(一般上千次,上万次,或者几十个epoch)没收敛,则试试下面方法:1. 数据侧:数据归一化神经网络中对数据进行归一化是不可忽略的步骤,网络能不能正常工作,还得看你有没有做归一化,一般
2020-05-09 13:05:56
8103
原创 python稀疏格式储存coo_matrix/csr_matrix/csc_matrix
概述在用python进行科学运算时,常常需要把一个稀疏的np.array压缩,这时候就用到scipy库中的sparse.csr_matrix(csr:Compressed Sparse Row marix) 和sparse.csc_matric(csc:Compressed Sparse Column marix)scipy.sparse.csr_matrix# 示例解读>...
2020-05-02 19:33:42
1291
原创 从FM推演各深度学习CTR预估模型(附代码)
Ref:链接FM 的tensorflow 实现class FM(Model): def __init__(self, input_dim=None, output_dim=1, factor_order=10, init_path=None, opt_algo='gd', learning_rate=1e-2, l2...
2020-04-27 14:50:07
317
原创 fasttext 与 word2vec、doc2vec 的区别
相似:图模型结构很像,都是采用embedding向量的形式,得到word的隐向量表达。 都采用很多相似的优化方法,比如使用Hierarchical softmax优化训练和预测中的打分速度。不同点:1.word2vec是一个无监督算法,而fasttext是一个有监督算法。 2.模型的输入层:word2vec的输入层是上下文单词;而fasttext 对应的...
2020-04-21 08:09:13
5780
原创 一台ubuntu服务器部署多台tomcat ,并实现外网访问:
一开始部署多个tomcat ,参考https://blog.csdn.net/qq839177306/article/details/78471058,发现这篇博客写的不对,,谨慎一点说就是:至少我没有成功实现. ,按照上面链接操作可能面临的问题:(1) 启动tomcat2时,发现真实启动的是tomcat1(2) 启动tomcat2时,回报Cannot find //bin/setcl...
2020-04-14 13:24:11
206
原创 优化方法入门
Ref:https://blog.csdn.net/weixin_42398658/article/details/84502215https://blog.csdn.net/weixin_42398658/article/details/84525917SGD :参数=旧参数 - 学习率*梯度(1)改变梯度:动量SGD:(2)改变学习率:AdaGrad -->引入衰...
2020-04-14 13:23:58
504
原创 GBDT、XGBoost、LightGBM汇
Ref:深入理解XGBoost本文是在原文基础上进行修补。XGBoost原理推倒:(1)目标函数:(2)第一项泰勒展开:(3)第二项-定义树的复杂度:(4)最终的目标函数:(5)一棵树的生成细节:(5.1)首先列采样,随机选出K列特征作为划分特征;(5.2)然后这K列进行并行运算,针对每列特征将数据生序排列,保存为block结构...
2020-04-14 13:23:41
3193
原创 损失函数介绍
几种常见的损失函数https://www.cnblogs.com/lliuye/p/9549881.html一. MSE: 线性回归问题log损失与交叉熵的等价性https://blog.csdn.net/google19890102/article/details/79496256二.Log loss:在二分类问题中logistic loss和交叉熵...
2020-04-14 13:23:19
627
原创 各种优化算法之间关系
Ref:https://www.zhihu.com/question/323747423/answer/790457991首先看一下下面的流程图,机器学习中常用的一个有梯度优化算法之间的关系:随机梯度下降SGD:随机采样一个样本,根据预测值和真实值得到损失,然后计算损失函数对参数的偏导数,来对参数进行更新动量法momentum:动量法在梯度下降法的基础上加入一个动量变量来控制...
2020-04-14 13:22:21
824
原创 决策树模型
ID3、C4.5、CART分类树算法总结: 感觉背这些无意义。IID3:缺点:ID3 没有剪枝策略,容易过拟合; 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1; 只能用于处理离散分布的特征; 没有考虑缺失值。C4.5:采取的优化措施:采用后剪枝策略,防止过拟合 引入信息增益率作为划分标准; 将连续特征离散化, 对于缺失值的处理:将...
2020-04-14 13:22:09
418
原创 聚类算法 - K-Means、二分K-Means、K-Means 、K-Means||、Canopy、Mini Batch K-Means算法
K-Means 系列:K-Means,二分K-Means,K-Means++,K-Meansll,canopy算法,MiniBatchK-Means算法。K-Means系列聚类算法原理:https://www.cnblogs.com/pinard/p/6164214.html用scikit-learn学习K-Means聚类:https://www.cnblogs.com/pinar...
2020-04-14 13:22:01
3282
1
原创 图模型-随机游走算法
文章目录推荐基本概念 PageRank PersonalRank TextRank SimRank推荐基本概念其中用户user=[A,B,C],物品item=[a,b,c,d],用户和物品有以下的关系上述便是一个典型的二分图,我们用G(V,E)来表示,其中V为用户user和物品item组成的顶点集即[A,B,C,a,b,c,d],而E则代表每一个二元组(u,i)之间对应的...
2020-04-14 13:21:53
7463
原创 XGBoost 和 LightGBM 对比
Ref:20道XGBoost面试题https://mp.weixin.qq.com/s?__biz=MzI1MzY0MzE4Mg==&mid=2247485159&idx=1&sn=d429aac8370ca5127e1e786995d4e8ec&chksm=e9d01626dea79f30043ab80652c4a859760c1ebc0d602e58e134...
2020-04-14 13:21:29
1910
原创 评估指标AUC、GAUC
AUC在机器学习算法中,很多情况我们都是把auc当成最常用的一个评价指标,而auc反映整体样本间的排序能力,但是有时候auc这个指标可能并不能完全说明问题,有可能auc并不能真正反映模型的好坏。AUC反映整体样本间的排序能力,表示正样本得分比负样本得分高的概率,对样本不区分用户地计算整体样本的AUC。线下AUC提升为什么不能带来线上效果提升? https://zhuanlan.zh...
2020-04-14 13:20:58
2275
原创 Dropout
1. 为什么要加Dropout?2. dropout 是在模型训练的时候进行失活,而且每轮训练失活的神经元是不固定的,随机的。3.Dropout 有哪些问题:会导致方差偏移、方差分布不一样,所以在keras 中有两个方法dropout方法 和α dropout ;α dropout 能修正方差偏移的问题4. Dropout是怎么实现的?是通过tensorfl...
2020-04-14 13:20:03
4259
原创 排序模型对比
LR 可以视作单层单节点的“DNN”, 是一种宽而不深的结构,能够处理高纬度稀疏问题,。 模型优点是简单、高效、可控性好,模型可解释: 所有的特征直接作用在最后的输出结果上 但是效果的好坏直接取决于特征工程的程度,需要非常精细的连续型、离散型、时间型等特征处理及特征组合。通常通过正则化等方式控制过拟合。Ref:https://tech.meituan.com/201...
2020-03-26 14:29:58
765
原创 处理正负样本不均衡问题
在原文的基础上 Ref: https://www.zhihu.com/question/27535832/answer/223882022 进行修改。1 通过过抽样和欠抽样解决样本不均衡抽样是解决样本分布不均衡相对简单且常用的方法,包括过抽样和欠抽样两种。过抽样过抽样(也叫上采样、over-sampling)方法通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制...
2020-03-15 11:49:36
5839
原创 特征工程之连续/离散特征的处理
离散特征:1.无序离散特征:one-hot encoding,比如所属国家、城市 (1)无序离散特征:one-hot encoding,比如所属国家,城市。(1)如果one-hot之后unique值不多可以不用做Embedding, (2)但是如果该特征unique值过多,比如所属国家、城市,onehot产生的矩阵过宽,这种情况下,我们的通常做法就是将其转换为embeddi...
2020-03-13 12:19:32
6563
1
原创 特征工程之连续/离散特征的处理
离散特征:无序离散特征:one-hot encoding,比如所属国家、城市无序离散特征:one-hot encoding,比如所属国家,城市。one-hot,比如所属国家、城市, 但是如果该特征unique值过多,onehot产生的矩阵过宽,所以通常采用下面的方法来减少维度也可以先做LabelEncoder将特征的不同取值区分开,然后再embedding有序离散特征:...
2020-03-09 17:52:36
2464
原创 Batch Normalization批标准化
Ref:什么是 Batch normalizationhttps://blog.csdn.net/hffhjh111/article/details/86994445深入理解Batch Normalization批标准化https://www.cnblogs.com/guoyaohua/p/8724433.html对于BN层的理解:就是 正态分布的特征--> Dens...
2020-03-09 10:56:55
356
原创 数据正则化 (data normalization) 的原理及实现 (Python sklearn)
原理数据正规化(data normalization)是将数据的每个样本(向量)变换为单位范数的向量,各样本之间是相互独立的.其实际上,是对向量中的每个分量值除以正规化因子.常用的正规化因子有 L1, L2 和 Max.假设,对长度为 n 的向量,其正规化因子 z 的计算公式,如下所示:注意:Max 与无穷范数不同,无穷范数是需要先对向量的所有分量取绝对值,然后取其中的最大值;而...
2020-03-09 08:16:24
8685
原创 过拟合的处理方法
这里仅贴出相关链接,有空时再详细补充。怎么判断欠拟合和过拟合:Ref:学习曲线——判断欠拟合还是过拟合过拟合的处理方法:从样本方面考虑:纵向上增加样本数量 横向上进行特征选择/降维 横纵都有:归一化: (1)MinMaxScaler:对列数据做(x-min)/(max-min) 变换 (2)MaxAbsScaler:对列数据做2(x-min)/(max-min...
2020-03-06 23:57:21
623
原创 全连接层的激活函数
1、全连接层当来到了全连接层之后,可以理解为一个简单的多分类神经网络(如:BP神经网络),通过softmax函数得到最终的输出。整个模型训练完毕。两层之间所有神经元都有权重连接,通常全连接层在卷积神经网络尾部。也就是跟传统的神经网络神经元的连接方式是一样的:全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化...
2020-03-06 11:11:45
29464
3
原创 推荐系统算法框架
在介绍矩阵分解之前,先让我们明确下推荐系统的场景以及矩阵分解的原理。对于推荐系统来说存在两大场景即评分预测(rating prediction)与Top-N推荐(item recommendation,item ranking)。评分预测场景主要用于评价网站,比如用户给自己看过的电影评多少分(MovieLens),或者用户给自己看过的书籍评价多少分。其中矩阵分解技术主要应用于该场景。 Top...
2020-03-05 09:24:15
1654
原创 LFM MF SVD SVD++ FM 之间的关系
Ref:https://zhuanlan.zhihu.com/p/98058812 在原文的基础上进行补充基于行为的推荐系统算法我们称之为协同过滤,包括基于邻域、基于模型(隐语义模型LFM)和基于图的随机游走。这次我们详细说说LFM模型。我们的目标是对一个user-item的评分矩阵进行一个补充,得到未知的分数,进而进行推荐。user和item是没有直接关系的,无法直接得到二者的...
2020-03-04 15:52:32
2541
原创 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure)、AUC、ROC的理解
一、准确率、精确率、召回率和 F 值(1)若一个实例是正类,但是被预测成为正类,即为真正类(True Postive TP)(2)若一个实例是负类,但是被预测成为负类,即为真负类(True Negative TN)(3)若一个实例是负类,但是被预测成为正类,即为假正类(False Postive FP)(4)若一个实例是正类,但是被预测成为负类,即为假负类(False Negat...
2020-03-03 00:06:16
36037
原创 最小二乘与最大似然估计之间的关系
在测量误差服从高斯分布的情况下, 最小二乘法等价于极大似然估计。Ref:最小二乘法与极大似然估计的区别与联系、最小二乘与最大似然估计之间的关系...
2020-02-22 10:26:35
1196
转载 阿里云服务器ssh经常掉线的解决办法
Ref:https://blog.csdn.net/lu_embedded/article/details/78870019修改云服务器 ssh 配置文件(1)打开配置文件;# vim /etc/ssh/sshd_config(2)找到下面两行;#ClientAliveInterval 0#ClientAliveCountMax 3(3)去掉注释,并修改其值;...
2020-02-12 14:16:46
1513
2010年山东省大学生电子设计竞赛本课组A、B题
2013-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人