机器学习
文章平均质量分 76
菠萝哥~
互联网码农&nlp&机器学习&大模型
展开
-
从零开始讲解LoRA——大语言模型的PEFT(Parameter-Efficient Fine-Tuning)系列
通过这种方式,可以使预训练模型在下游的微调任务当中,不用去学习全量的训练参数,因此大大降低了模型的训练参数量,同时降低了GPU内存的需求。LoRA的主要思想是在预训练模型的每一层中保持训练前权重不变,同时在每一层中注入可训练的秩分解矩阵,从而大大减少了针对下游任务的可训练参数数量。与模型质量相当或更好的表现:尽管LoRA具有较少的可训练参数、更高的训练吞吐量和与适配器不同的无额外推理延迟,但在RoBERTa、DeBERTa、GPT-2和GPT-3上的表现与完全微调相当或更好。的参数量为d*k个。原创 2024-01-17 19:40:52 · 1182 阅读 · 0 评论 -
为什么LLM都用的Decoder only结构?
现在的LLM的模型,都用的是 decoder的 架构,没有用encoder的,之前的google开发出了bert,后续出的T5的模型,都是很经典的模型,在NLU上的效果都很好,为什么现在的LLM都不用encoder结构了呢?原创 2024-01-13 17:36:19 · 531 阅读 · 0 评论 -
K近邻算法的介绍
k近邻算法,也称为KNN或者是k-NN,它是属于非参数、有监督的学习分类器。它常用于解决分类与回归问题。按照比较通俗的话来说,所谓的k近邻,就是每个样本可以用它最接近的k个相邻样本来表示。如果一个样本,它的k个相邻的样本的大多数都属于类别1,那么这个样本就也会归结到类别1当中。原创 2023-10-24 20:54:13 · 214 阅读 · 0 评论 -
解决sklearn中tsne算法降维结果不一致的问题
TSNE在运算的时候,会初始化一个随机的种子点,如果没有制定该参数的话,默认该参数为None,同时会默认使用mumpy.random随机生成一个数作为种子点。最近在做一个文本聚类的分析,在对文本数据embedding后,想着看下数据的分布,于是用sklearn的TSNE算法来降维我的数据结果。当我在多次执行后,竟发现TSNE的结果竟然变了,而且每次都不一样。之前只是在网上随便找了个做TSNE的博客,粘了这两行代码就跑结果了,出现了这个问题后,决定还是得好好看看sklearn中的官方文档。原创 2023-10-12 11:58:40 · 447 阅读 · 3 评论