深度学习
帅气的Ezio
这个作者很懒,什么都没留下…
展开
-
训练GLM大模型
训练GLM, 第一次会花比较长时间解析数据集, 大概30mins后报错:UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x80 in position 0: invalid start byte。原创 2023-05-10 11:59:51 · 644 阅读 · 0 评论 -
Dreambooth让你的狗子环游世界
Dreambooth设计了一个loss function, 让我们可以用少量自己的图像对Stable Diffusion大模型进行微调(finetune), 来得到个性化的图片;DreamBooth 的工作方式如下:收集大约 10-20 张特定主体(例如您的狗)的输入图像,并定义一个唯一标识符 [V],它代指的即是您输入的主体。该标识符通常是一些像 flffydog 这样的虚构词,在推理时它会被植入不同的文本提示中来将主体置于不同的上下文中。原创 2023-03-25 17:30:35 · 236 阅读 · 0 评论 -
推理量化代码浅析
量化卷积网络, 本质上就是:1量化输入x,2将卷积操作替换为公式(7 )作者代码写得很好,试着画图简析如下:原创 2023-03-17 11:45:32 · 71 阅读 · 0 评论 -
keras使用gpu训练(tensor1.15 + cuda10.2)
模型搭建首先写一个简单的 训练cifar10 的模型,可参考Keras入门课3 – 使用CNN识别cifar10数据集CPU训练安装pip install tensorflow==1.15 , 默认使用CPU 训练, 一个epoch训练时间为:141sGPU训练注意:tensorflow-gpu-cudnn-cuda对应版本正确的步骤是按照对照表去安装。 PS :tensorflow1.15 对应的也是cuda10.0使用GPU 训练, 一个epoch训练时间为:21s !!!但是不幸的是原创 2020-06-08 16:06:26 · 2271 阅读 · 1 评论 -
英伟达tensor模型加速原理浅析
为什么可以加速:假设底下的输入input size = (250,250,3), 优化前三个1。1.为什么BN-folding可以加速?:bn融合到 conv中, 节省了一个计算量;水平拼接后就只要调用一次CBR了, 还是减少函数调用的目的。1卷积需要调用三次CBR函数;原创 2023-03-14 18:13:22 · 160 阅读 · 0 评论