源代码杀手
大厂算法工程师经验、高校教师。
互相学习,共同进步!想做项目,私聊需求。
展开
-
【爆火大模型应用】本地多代理 RAG 超级机器人
这个系统结合了四个强大的组件,构建了一个基于本地推理的多代理 RAG(Retriever-augmented Generation)超级机器人。原创 2024-11-27 00:05:55 · 98 阅读 · 0 评论 -
【大模型微调训练与实操】微调 Llama 3 并在本地使用
目标:根据医患对话数据集对 Llama 3 进行微调,创建一个专门针对医疗对话的模型。在合并、转换和量化模型后,它将可以通过 Jan 应用程序供本地私人使用。在本教程中,我们将学习如何在医学数据集上微调 Llama 3。我们还将通过 Jan 应用程序将模型转换为可供本地使用的格式。如果你正在寻找学习 AI 的精选课程,请查看有关。3.将模型转换为Llama.cpp GGUF。5. 在本地使用微调模型。4. 量化GGUF模型。的六门课程技能轨迹。了解 Llama 3。原创 2024-08-17 00:43:02 · 453 阅读 · 0 评论 -
【大模型部署及其应用 】Ollama搭建运行中文大语音模型Llama3-8B-Chinese-Chat
Ollama 是一种用于运行大语言模型(如 LLaMA)的平台,适合本地化部署和运行。以下是如何在 Ollama 上搭建和运行中文大语言模型 Llama3-8B-Chinese-Chat 的步骤:下载地址:https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF-8bit项目地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca-3?原创 2024-08-17 00:11:28 · 1847 阅读 · 0 评论 -
【大模型部署及其应用 】使用 Llama 3 开源和 Elastic 构建 RAG
Llama 3 是 Meta 最近推出的开源大型语言模型。这是 Llama 2 的后继者,根据已发布的指标,这是一个重大改进。与 Gemma 7B Instruct、Mistral 7B Instruct 等最近发布的一些模型相比,它具有良好的评估指标。该模型有两个变体,分别是 80 亿和 700 亿参数。值得注意的是,在撰写这篇博客时,Meta 仍在训练 400B+ 版本的 Llama 3。Meta Llama 3 指导模型性能。原创 2024-08-16 23:43:55 · 351 阅读 · 0 评论 -
【大模型部署及其应用 】RAG检索技术和生成模型的应用程序架构:RAG 使用 Meta AI 的 Llama 3
自定义知识库:作为 RAG 基础的相关最新信息集合。它可以是数据库、文档集或两者的组合。在这种情况下,它是您提供的 PDF,将用作事实来源来为用户查询提供答案。原创 2024-08-16 22:47:34 · 524 阅读 · 0 评论 -
【大模型部署及其应用 】使用 Ollama 和 Ollama WebUI 在本地运行 Llama 3
目录Meta(前身为 Facebook)刚刚Llama 3,这是一个突破性的大型语言模型 (LLM),有望突破 AI 所能实现的极限。令人兴奋的消息是什么?它现在可以通过开源平台 Ollama 获得!原创 2024-08-16 22:07:34 · 1109 阅读 · 0 评论 -
【AIGC核心技术剖析】AI生成音乐:MAGNeT一种直接操作多个音频令牌流的掩码生成序列建模方法
与先前的工作不同,MAGNeT由一个单阶段、非自回归的变压器组成。最后,论文探索了MAGNeT的混合版本,在这个版本中,论文在自回归方式下生成前几秒钟,而序列的其余部分则以并行方式解码。通过消融研究和分析,论文阐明了构成MAGNeT的每个组件的重要性,同时指出了在自回归和非自回归建模之间的权衡,考虑延迟、吞吐量和生成质量。源码:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md。原创 2024-02-04 15:18:04 · 611 阅读 · 0 评论 -
【AIGC核心技术剖析】DreamCraft3D一种层次化的3D内容生成方法
DreamCraft3D是一种用于生成高保真、连贯3D对象的层次化3D内容生成方法。它利用2D参考图像引导几何塑造和纹理增强阶段,通过视角相关扩散模型执行得分蒸馏采样,解决了现有方法中存在的一致性问题。通过定制的3D先验,DreamCraft3D生成具有逼真渲染的连贯3D对象,推动了3D内容生成的最新进展。DreamCraft3D是一个由深度求索开源的项目,旨在通过一种分层的3D内容生成方法,利用2D参考图像来引导几何雕刻和纹理增强的阶段,从而生成高保真度和连贯性的3D物体。原创 2024-02-04 14:41:30 · 852 阅读 · 0 评论 -
【All Things ViTs】Understanding and Interpreting Attention in Vision(关于理解和解释视觉注意力的教程)
"All Things ViTs"是一个关于理解和解释视觉注意力的教程,特别是在深度学习研究中的应用。该教程旨在提供对注意力机制内部运作的见解,以及其在视觉和多模态环境中的应用。教程材料,包括代码示例和交互式演示,托管在该组织的网站和GitHub存储库上。该教程由Hila Chefer和Sayak Paul主持,旨在探讨注意力机制在深度学习研究中在各个领域的日益流行。参考:https://blog.csdn.net/gzq0723/article/details/131407762。原创 2024-02-04 14:26:01 · 218 阅读 · 0 评论 -
【AIGC核心技术剖析】改进视频修复的传播和变压器(动态滤除环境中的物体)
此外,内存或计算约束限制了特征传播和视频变压器的时间范围,阻止了对远帧对应信息的探索。为了解决这些问题,我们提出了一个改进的框架,称为ProPagation,它涉及增强的ProPagation和高效的Transformer。具体来说,我们引入了双域传播,它结合了图像和特征扭曲的优点,可靠地利用了全局对应关系。我们还提出了一种掩码引导的稀疏视频转换器,它通过丢弃不必要和冗余的令牌来实现高效率。有了这些组件,ProPainter在PSNR中以1.46 dB的较大优势优于现有技术,同时保持了吸引人的效率。原创 2023-10-19 22:38:00 · 332 阅读 · 0 评论 -
【AIGC核心技术剖析】用于高效 3D 内容创建生成(从单视图图像生成高质量的纹理网格)
3D 内容创建的最新进展主要利用通过分数蒸馏抽样 (SDS) 生成的基于优化的 3D 生成。我们的主要见解是设计一个生成式 3D 高斯溅射模型,该模型具有伴随的网格提取和紫外线空间中的纹理细化。与神经辐射场中使用的占用修剪相比,我们证明了3D高斯的渐进致密化对于3D生成任务的收敛速度明显更快。大量实验证明了我们提出的方法具有卓越的效率和有竞争力的发电质量。值得注意的是,DreamGaussian 只需 2 分钟即可从单视图图像生成高质量的纹理网格,与现有方法相比实现了大约 10 倍的加速。原创 2023-10-19 22:28:02 · 1209 阅读 · 0 评论 -
【AIGC核心技术剖析】扩大富有表现力的人体姿势和形状估计SMPLer-X模型
富有表现力的人体姿势和形状估计 (EHPS) 将身体、手和面部运动捕捉与众多应用结合起来。尽管取得了令人鼓舞的进展,但当前最先进的方法仍然在很大程度上依赖于有限的训练数据集。在这项工作中,我们研究了将 EHPS 扩展到第一个通用基础模型(称为 SMPLer-X),以 ViT-Huge 作为骨干,并使用来自不同数据源的多达 450 万个实例进行训练。凭借大数据和大模型,SMPLer-X 在不同的测试基准中表现出强大的性能,并且即使在未见过的环境中也具有出色的可移植性。原创 2023-10-19 22:18:42 · 534 阅读 · 0 评论 -
【AIGC核心技术剖析】用于 3D 生成的多视图扩散模型
MVDream是一种多视图扩散模型,能够从给定的文本提示生成一致的多视图图像。多视图扩散模型从二维和三维数据中学习,可以实现二维扩散模型的泛化和三维渲染的一致性。我们证明了这样的多视图先验可以作为可推广的 2D 先验,与 3D 表示无关。它可以通过分数蒸馏取样应用于 2D 生成,显着增强现有 3D 提升方法的一致性和稳定性。它还可以从一些3D示例中学习新概念,类似于DreamBooth,但用于3D生成。原创 2023-10-19 22:11:07 · 612 阅读 · 0 评论 -
【AIGC核心技术剖析】Hotshot-XL 一种 AI 文本转 GIF 模型(论文 + 代码:经过训练可与Stable Diffusion XL一起使用)
Hotshot-XL 是一种 AI 文本转 GIF 模型,经过训练可与Stable Diffusion XL一起使用。Hotshot-XL 可以使用任何经过微调的 SDXL 模型生成 GIF。这意味着两件事:您将能够使用您可能想要使用的任何现有或新微调的 SDXL 模型制作 GIF。如果您想制作个性化主题的 GIF,您可以加载您自己的基于 SDXL 的 LORA,而不必担心微调 Hotshot-XL。这太棒了,因为通常为训练数据找到合适的图像比找到视频要容易得多。原创 2023-10-19 22:01:54 · 998 阅读 · 0 评论 -
【AIGC核心技术剖析】大型语言和视觉助手——LLaVA(论文+源码)
我们的早期实验表明,LLaVA 表现出令人印象深刻的多模型聊天能力,有时会在看不见的图像/指令上表现出多模态 GPT-4 的行为,并且在合成多模态指令遵循数据集上与 GPT-85 相比产生了 1.4% 的相对分数。我们公开提供 GPT-4 生成的可视化指令调整数据、我们的模型和代码库。LLaVA代表了一种新颖的端到端训练大型多模态模型,结合了视觉编码器和骆马 对于通用的视觉和语言理解, 实现令人印象深刻的聊天功能,模仿多模式 GPT-4 的精神,并在科学 QA 上设置新的最先进的准确性。原创 2023-10-19 21:46:31 · 896 阅读 · 0 评论 -
【AIGC核心技术剖析】基于大规模弱监督的鲁棒语音识别【附源码】
论文研究了语音处理系统的能力,该系统只是为了预测互联网上的大量音频成绩单而训练的。当扩展到 680,000 小时的多语言和多任务监督时,生成的模型可以很好地推广到标准基准,并且通常与先前的完全监督结果竞争,但在零镜头传输设置中无需任何微调。与人类相比,这些模型接近其准确性和稳健性。论文正在发布模型和推理代码,作为进一步研究健壮语音处理的基础。原创 2023-10-19 21:27:23 · 340 阅读 · 0 评论 -
【AIGC核心技术剖析】研究报告分享与汇总
AIGC行业竞争格局分析(附2023AIGC行业研究报告下载)White Paper on AI-Generated Content (AIGC) (2022)AIGC深度报告:新一轮内容生产力革命的起点人工智能生成内容(AIGC)白皮书腾讯研究院AIGC发展趋势报告2023AI生成内容产业展望报告综述:AI-Generated Content (AIGC): A SurveyAIGC2023:https://icaigc.org/原创 2023-09-28 09:59:08 · 507 阅读 · 0 评论