- 博客(33)
- 收藏
- 关注
原创 修复/修改torchrun中的python环境路径
输出:/home/user/mambaforge/envs/env/bin/python。torchrun的路径为:/home/user/.local/bin/将这个路径替换torchrun中的第一行路径。,不报错,证明修复成功。
2024-04-23 15:08:09 102
原创 UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd7
执行完指令之后再安装mamba可以直接成功安装。发现bashrc的编码不正确。安装mamba时报错。
2024-04-23 12:10:27 173
原创 3d representation的一些基本概念
光照模型(Lighting Model):用于模拟光线如何与物体表面交互的数学模型,包括环境光照(Ambient Lighting)、漫反射(Diffuse Reflection)、镜面反射(Specular Reflection)等。面(Face):由边界的边围成的平面区域,通常是三角形(Triangle),因为三角形可以表示任何多边形面,并且在数学上稳定(不会自相交或扭曲)。法线(Normal):垂直于面或顶点的3D向量,用于光照计算,确定物体的表面方向和光照如何影响物体的外观。
2024-04-05 16:09:24 488
原创 ipykernel_launcher.py: error: unrecognized arguments
在jupyter中使用argparse时遇到报错。
2024-03-30 20:56:20 137 3
原创 无管理员权限,修改gradio默认路径,PermissionError: [Errno 13] Permission denied: ‘/tmp/gradio...‘
参考:https://github.com/lllyasviel/Fooocus/issues/1065。在原始运行代码的基础上指定tmp文件的路径。这个路径定义为自己有权限访问的文件即可。
2024-03-22 11:21:02 446
原创 无管理员权限更新gcc
参考:https://blog.csdn.net/weixin_42054508/article/details/106468768。网址为:https://mirrors.kernel.org/gnu/gcc/进入网址下载所需要的gcc版本文件。
2024-03-21 19:43:53 182
原创 huggingface text-generation代码实现文本生成
参考:https://huggingface.co/tasks/text-generation。将model替换为实际存储模型的地址即可。若只需打印生成的文本,则使用。
2024-03-09 13:11:44 358 2
原创 OSError: libtorch_cuda_cpp.so: cannot open shared object file: No such file or directory
去官网查找可以安装的版本:https://pytorch.org/get-started/previous-versions/检查pytorch安装的版本和cuda是否对应。
2024-03-03 08:43:47 676
原创 Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
通常,LLM的用户请求和相应的响应都在文本中,然而,纯文本人机交互对于许多应用场景来说是不够的,因为现实世界的信息通常是多模态的。为了进一步探索llm的潜力,许多研究人员试图赋予llm理解多模态内容的能力。现有的工作大多基于将单一模态的输入与文本进行对齐。赋予LLM理解视频需要对包括视觉输入、听觉输入和文本输出在内的不同模式的全面处理,这比纯图像理解和纯音频理解任务更具挑战性。为了将文本输出与视频对齐,我们设计了多分支跨模态预训练来学习视觉语言对应和音频语言对应。
2024-02-24 14:53:50 328 1
原创 ERROR: Failed building wheel for flash-attn
主要原因是网络问题导致无法下载到文件,所以需要手动下载报错提示url中的文件。
2024-01-22 15:32:11 547
原创 Creative Agents: Empowering Agents with Imagination for Creative Tasks
论文提出了一种新颖的方法,通过赋予代理想象力,使其能够完成创造性任务。作者将代理分解为想象器和控制器,其中想象器负责将语言指令转换为具体的任务结果想象,而控制器则根据当前状态、想象和语言指令采取行动。论文提出了两种想象器变体(基于大型语言模型和基于扩散模型的视觉想象器)以及两种控制器变体(行为克隆控制器和基于GPT-4(V)的控制器)。实验证明,所提出的创造性代理能够在Minecraft的生存模式中创建各种多样化且视觉上令人满意的建筑,这在以前的研究中从未实现过。
2024-01-15 14:40:02 253
原创 国内如何下载huggingface模型、数据集
镜像网站1:https://hf-mirror.com/镜像网站2:https://aliendao.cn/#/可以直接使用wget下载。
2024-01-03 19:40:28 1389
原创 Uvicorn running on http://0.0.0.0:8000 如何在本地访问
则需要浏览器访问:http://localhost:8000/clean_cache。用uvicorn+fastapi到本地需要添加ssh隧道。之后就可以使用本地浏览器打开了。如果定义了类似这样的函数。
2023-12-31 22:10:17 1420
原创 linux服务器上传模型到huggingface
打开文件,将文件中的key复制到hf中。设置key存储的位置,自定义。会有欢迎的提示,证明配置成功。然后就可以上传文件了。
2023-12-12 15:51:59 477
原创 linux服务器配置vscode+jupyter
选择内核->jupyter kernel->找到创建的环境并选择。就已经激活了jupyter环境,其中env是自己设定的环境名。vscode上安装jupyter插件。然后vscode连接服务器。进入环境之后,依次执行。
2023-07-24 10:39:40 518
原创 ClipCap: CLIP Prefix for Image Captioning
ClipCap阅读笔记。我们使用CLIP编码作为标题的前缀,通过使用一个简单的映射网络,然后微调一个语言模型来生成图像标题。最近提出的CLIP模型包含丰富的语义特征,经过文本上下文的训练,使其最适合视觉语言感知。我们的关键思想是,结合预先训练的语言模型(GPT2),我们可以获得对视觉数据和文本数据的广泛理解。因此,我们的方法只需要相当快速的训练,以产生一个合格的字幕模型。无需额外的注释或预先训练,它可以有效地为大规模和多样化的数据集生成有意义的标题。
2022-11-20 21:59:15 1810 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人