Deep Learning
文章平均质量分 63
深度学习
小怪兽会微笑
华师大小博士
展开
-
CLIP各个模型的性能比较图
CLIP各个模型的性能比较图原创 2024-07-05 19:15:01 · 145 阅读 · 0 评论 -
大模型参数高效微调学习笔记
1.BitFit将模型的所有偏置bias设为可训练的参数,其他部分设置为不可训练的。将模型的所有注意力层Attention设为可训练的参数,其他部分设置为不可训练的。在模型的输入的prompt前面加入一个可训练Prompt embedding向量,模型的整个部分全部冻结,如下图。如果Prompt embedding向量参数是随机初始化的,则是soft prompt,如果使用一段文本初始化(例如,“下面是一个情感任务”),则是hard prompt。4.P-tuning。原创 2024-06-23 21:06:05 · 428 阅读 · 0 评论 -
垂直领域大模型搭建训练指南,ChemLLM论文介绍
论文是上海人工智能实验室的工作,想训练一个化学垂直领域的对话大模型,然而现有的化学数据往往是结构性的,所以这里论文提出了一套垂直领域数据制作和训练方法,为社区制作专有领域模型提供参考。ChemLLM在化学的三个主要任务上都超过了GPT-3.5,并且超过了GPT-3.5,在其中两个任务上都超过了GPT-4。值得注意的是,ChemLLM对相关的数学和物理任务也显示出了特殊的适应性,尽管它主要接受了以化学为中心的语料库的训练。原化学的表达是SMILES,不适合自然语言处理。原创 2024-02-27 16:46:36 · 2096 阅读 · 3 评论 -
19个大模型常用的评估数据集和训练数据集汇总
19个大模型常用的评估数据集和训练数据集汇总 名称 简介 测试(数据量) 训练(数据量) 地址 CEval 中文选择题测试,包括中学、高中、大学的多个学科 √,13948 × https://huggingface.co/datasets/ceval/ceval-exam GSM8K 小学数学题目,通过最后的数字检测正确与否 √,1320 √,8790 h原创 2024-02-21 20:46:50 · 2758 阅读 · 1 评论 -
大模型:常见的文字表情包(可以直接加到微调数据里)
返回论文目录返回资料目录原创 2023-12-11 22:45:04 · 827 阅读 · 0 评论 -
大模型:高质量对话数据生成,Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
指令微调的有效性已经被多个工作验证,ChatGPT更是是其中的代表。这个工作旨在提高开源模型的性能上限,提供了一个系统设计的、多样化的、信息丰富的、大规模的教学对话数据集UltraChat。UltraChat包含150万个高质量的多轮对话,并涵盖了广泛的主题和指令。UltraChat的统计分析揭示了其在尺度、平均长度、多样性、一致性等各种关键指标上的优势,巩固了其作为领先的开源数据集的地位。这篇文章认为在训练过程中使用的数据的质量和多样性,对进一步提高聊天语言模型的性能起着至关重要的作用。原创 2023-12-10 22:07:35 · 1424 阅读 · 0 评论 -
大模型加载的参数介绍及推荐表,temperature、top_k、top_p、num_beams、num_beam_groups、do_sample等
如果需要非常清晰读懂每个参数,需要了解一下与大模型配套的。原创 2023-11-29 17:05:15 · 10291 阅读 · 1 评论 -
大模型的全面回顾,看透大模型 | A Comprehensive Overview of Large Language Models
大模型综述,太全面了,截至2023.11原创 2023-11-14 23:51:37 · 907 阅读 · 0 评论 -
为什么大模型计算的时候只会利用KVcache来存放KV矩阵,Q矩阵每次不一样?
总之,KV Cache是一种用于提高Transformer架构的推理效率的技术,通过缓存K和V矩阵,从而避免不必要的计算,但由于Q矩阵通常不稳定,因此不会被缓存。KV Cache的思想是,对于K和V矩阵,由于它们相对稳定,可以在不同时间步骤缓存它们,这样,对于相同的输入,您不需要重新计算K和V矩阵,而可以重复使用它们。在Transformer中,自注意力机制的操作包括Q(Query)、K(Key)和V(Value)的计算。相反,Q矩阵是依赖于输入的,因此每次都不同,无法进行缓存,因此Q矩阵通常不被缓存。原创 2023-10-24 22:47:40 · 1674 阅读 · 6 评论 -
大模型相关资料、基础技术和排行榜
大模型原创 2023-08-05 19:50:13 · 736 阅读 · 0 评论 -
将数据库与LLMs结合,增强模型的长期记忆能力--ChatDB
LLMs目前存在一个很大问题是缺乏长期记忆。基于指令的记忆:将之前的历史文本和相应文本的 vector embedding 保存下来,需要的时候再利用 vector embedding 间的相似性找到相关的历史信息,然后放到 prompt 中,作为大语言模型的输入,相关的工作有 Auto-GPT 和 Generative Agents 等等。原创 2023-06-27 23:04:33 · 1155 阅读 · 0 评论 -
python使用指定距离对样本进行聚类
实现该方法基于scikit-learn下的两个接口AffinityPropagationDBSCAN实现见这里原创 2021-11-22 10:42:12 · 2107 阅读 · 0 评论 -
脑神经科学简单介绍(小白入门)
脑神经科学Part 1:大脑结构上图展示了人脑脑干上的结构。包括5大功能思维功能(逻辑推理,语言功能,空间心像,构思凝想)体觉功能(体觉辨识,操作理解,体觉感受,工艺欣赏)精神功能(沟通管理,计划判断,创造领导,目标憧憬)听觉功能(听觉辨识,语言理解,听觉感受,音乐欣赏)视觉功能(视觉辨识,观察理解,视觉感受,图像欣赏)Part 2:心理结构人脑的3大心理部分。自我:执行的主体,接受外界的视觉,听觉,触觉等部分并输出信号的部分,如说话。包括意识成分的和无意识的成分本我:完全无意原创 2021-08-15 15:48:42 · 2648 阅读 · 0 评论 -
免费学习机器学习和深度学习的源码、学习笔记和框架分享
机器学习和深度学习的免费学习源码、学习笔记和框架分享机器学习源码简介机器学习笔记超好的机器学习教程,里面有各类机器学习算法,统计学习,深度学习等宝贝。作者华校专,曾任阿里巴巴资深算法工程师、智易科技首席算法研究员,现任腾讯高级研究员,是《Python 大战机器学习》的作者。莫烦Python一个很好的学习机器学习深度学习和python等常用计算机技能的地方,作者有b站视频配合讲解Machine-Learning一个机器学习的地方,作者在b站上有分享些学习视频西瓜原创 2021-07-27 20:35:43 · 493 阅读 · 0 评论 -
Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles
使用深度神经网络集合预测点的分布1.摘要深度神经网络是一个在处理黑盒优化问题时的很好的预测器。然而量化神经网络的不确定性的问题仍然具有挑战且有待解决。贝叶斯神经网络是目前最先进的估计预测不确定性的方法,然而这些方法都需要对训练过程进行重大修改,与标准(非贝叶斯)神经网络相比计算昂贵。我们提出了一种贝叶斯神经网络的替代方案,它易于实现,易于并行,并产生高质量的预测不确定性估计。通过分类的一系列回归基准实验,我们证明了我们的方法产生了良好校准的不确定性估计,这些估计与近似贝叶斯神经网络一样好或更好。最原创 2021-07-24 19:34:13 · 1799 阅读 · 1 评论 -
tf.reduce_mean,tf.divide,tf.math.subtract等函数总结
tf.reduce_mean,tf.divide,tf.math.subtract等函数总结1.tf.reduce_mean,tf.reduce_max,tf.reduce_min,tf.reduce_sum分别求tensor的均值,最大值,最小值,和,例子结果:2.tf.dividetensor的对应位置相除3.tf.math.subtracttensor对应位置相减...原创 2021-07-22 10:18:12 · 482 阅读 · 0 评论 -
python中list类型快速求均值的方法
python中list类型快速求均值的方法一般来说,对于一个list对象,我们希望能快速求出均值,类似这样lst=[1,2,1,4,6,3]print(lst.mean())print(mean(lst))但是这样会报错的因为list没有自带这样的函数的,所以查了好久,除非3.4以上的python可以用mean(lst),否则的话下述方法最快sum(lst)/len(lst)结果...原创 2021-07-22 09:11:11 · 46827 阅读 · 2 评论 -
tensorflow2查看tensor的值
tensorflow2查看具体tensor的值一般来说直接print就可以了,会有如下结果但有时候会遇到不可抗力,这时候不要用tf.compat.v1,然后开会话去看了,直接用tf.print(diff)例子见图原创 2021-07-22 08:48:34 · 3523 阅读 · 1 评论 -
1.2机器学习基本概念
1.2.1基本概念训练集测试集特征值监督学习非监督学习半监督学习分类回归1.2.2例子1针对例子1,我们可以把100天的数据(包括每天的温度X1,天气X2,风力X3,水温X4,湿度X5,预报X6和小明每天是否享受运动Y)作为训练集,产生模型,再用接下来的10天作为测试集检验生成的模型N(X1,X2,X3,X4,X5,X6)向量即为特征向量1.2.3例子2...原创 2020-02-16 12:40:02 · 249 阅读 · 0 评论 -
1.1机器学习的概念,应用和Demo
1.1.1概念概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。学科定位:人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。...原创 2020-02-16 11:44:19 · 298 阅读 · 0 评论 -
4.3tensorflow2.0实战梯度下降求空间曲面的最低点
import numpy as npfrom mpl_toolkits.mplot3d import Axes3Dfrom matplotlib import pyplot as pltimport tensorflow as tfdef himmelblau(x): # z=(x^2+y-11)^2+(x+y^2-7)^2 return (x[0] **...原创 2020-03-30 23:42:45 · 370 阅读 · 0 评论 -
2.9tf.nn.softmax()函数
softmax函数表达式作用是将一组数转换成预测的概率,原先数值大的数概率会进一步预测较大,原先数值小的数会概率预测变小,且所有预测的概率之和为1,所以该函数常用于分类问题,对最后输出结果进行处理,得到概率import tensorflow as tfimport osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'a=tf.range(1,5,dtype...原创 2020-03-30 23:21:37 · 1141 阅读 · 0 评论 -
4.2tensorflow2.0实战不使用keras框架处理MNIST数据集
import tensorflow as tffrom tensorflow.keras import datasetsimport osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'def preprocess(x, y): """ :param x: :param y: :return: """ ...原创 2020-03-29 22:18:39 · 866 阅读 · 0 评论 -
3.2tensorflow2.0中几个简单常用的图片数据集介绍及加载方式
代码会检查有没有数据集在本地,没有数据集的话代码会自动下载,注意科学上网提高下载速度MNIST数据集一个手写数字数据集,共10类from tensorflow import keras(x_train,y_train),(x_test,y_test)=keras.datasets.mnist.load_data()print(x_train.shape,y_train.shape...原创 2020-03-29 21:02:44 · 771 阅读 · 0 评论 -
2.8tf.maximum()、tf.minimum()和tf.clip_to_value()
用来对张量里的值进行限定import tensorflow as tfimport osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'a=tf.range(10)print(tf.maximum(a,4))# tf.Tensor([4 4 4 4 4 5 6 7 8 9], shape=(10,), dtype=int32)print(tf.mini...原创 2020-03-29 15:31:43 · 287 阅读 · 0 评论 -
2.7tf.pad()函数
该操作与卷积操作里的padding操作有关,所以很重要,用来对张量的指定维度进行边缘填充import tensorflow as tfimport osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'a=tf.reshape(tf.range(9),[3,3])print(a)# tf.Tensor(# [[0 1 2]# [3 4 5]# [6...原创 2020-03-29 15:21:40 · 120 阅读 · 0 评论 -
2.6tf.norm()函数
使用L1_norm范数和Eukl_norm范数L1-Norm计算方式Eukl-Norm计算方式import tensorflow as tfimport osos.environ['TF_CPP_MIN_LOG_LEVEL']='2'a=tf.ones([2,2])print(tf.norm(a))#Eukl_normprint(tf.norm(a,ord=1))#L1_nor...原创 2020-03-28 20:52:59 · 11214 阅读 · 1 评论 -
ubuntu上将Imagenet的VGG、ResNet、Densenet、Inception等模型参数导入tensorfow里面
首先,你有了参数文件(像这样的,如图),没有的话可以参考我的另一篇博客下载然后打开终端,输入ls -a,查看隐藏文件ls -a可以看到有个.keras隐藏文件,进去cd .kerascd .keras里面有个models文件,将.h5文件放到这里面就算导入成功最后只需要用cp或mv命令把文件移过来即可,再去执行以下代码就没问题了model = keras.applicati...原创 2020-03-24 00:03:37 · 356 阅读 · 0 评论 -
Imagenet上VGG和ResNet模型参数下载方法与链接
如果ubuntu有科学上网工具的话可以直接用以下代码导入#tensorflow2.0model = keras.applications.VGG19(weights='imagenet', include_top=False, pooling='max')#这里的参数可根据自己需要修改没有的话考虑用下面的链接先从其他地方下载,再...原创 2020-03-23 23:48:01 · 1755 阅读 · 0 评论 -
2.5tf.concat,tf.stack,tf.unstack,tf.split函数
原创 2020-03-22 13:37:33 · 209 阅读 · 0 评论 -
4.1tensorflow2.0实战前向传播
import tensorflow as tffrom tensorflow.keras import datasets#减少不必要的输出import osos.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'#使用mnist手写数据集,没有该数据集会自动网上下载,注意科学上网提高下载速度(x,y),_=datasets.mnist.load_data(...原创 2020-03-22 12:38:00 · 255 阅读 · 0 评论 -
2.4tf.transpose函数
用来对张量进行转置或维度变换原创 2020-03-22 12:24:04 · 145 阅读 · 0 评论 -
2.3tf.one_hot()函数作用
tf.one_hot()函数作用将一个数生成一个向量,向量除了这个数所在位置为1,其他位置为0原创 2020-03-22 11:58:24 · 275 阅读 · 0 评论 -
2.2tensorflow查看当前数据维度与类型
原创 2020-03-22 11:49:24 · 1761 阅读 · 1 评论 -
2.1tf.constant()函数用法解析
tf.constant()用来定义tensor常量直接上代码定义之后自动为tf.Tensor类型shape=( ),表示0维,只是个单一的值;shape=(3,),表示1维向量,有3个值数据类型可以是int32,float32,float64,bool,string...原创 2020-03-22 11:34:56 · 2847 阅读 · 0 评论 -
1.3从人工智能到机器学习再到深度学习
1.3.1谈谈人工智能这里我不用什么什么某某大佬的精辟定义,就托大下自己,讲下我对人工智能的看法记得小的时候看过一部电影,名字叫《机器人管家》,至今还给我留下了深刻影响,所以一听到人工智能,就想到了机器人所以我觉得人工智能就是把机器变得聪明,变得像人一样,能处理人会处理的事情,或者用机器拥有的,而人没有的条件,依靠人赋予它的智慧,做到超越人的事可以就拿大家都知道的下围棋这件事,机器依靠人...原创 2020-02-25 23:15:14 · 464 阅读 · 1 评论