Johntill-CSDN博客

原创 FLOAT：一种基于流匹配生成模型的音频驱动肖像说话视频生成的方法

本文提出的FLOAT方法通过流匹配生成模型实现了高效的音频驱动说话人像视频生成。通过引入基于Transformer的向量场预测器和语音驱动的情感标签，FLOAT在视觉质量、运动保真度和效率方面达到了最先进的水平。未来的工作将进一步探索更复杂的情感表达和实时视频生成。

2024-12-04 21:58:56 739 1

原创学习Kimi官方8大提示词，使用大模型快速提升学习能力和工作效率

本文介绍了 8 种基于人工智能技术的提示词模版，旨在帮助学生、白领等提升职业发展能力。包括`职业导航顾问、面试模拟助手、会议精要整理、PPT精炼助手、爆款文案大师、美文排版工具、要点凝练助手以及短剧脚本专家

2024-12-03 21:33:14 727

原创 TTS小模型OuteTTS v0.2发布：声音克隆+多语种，开始制作你的第一个作品吧～

OuteTTS v0.2-500M 是基于 Qwen-2.5-0.5B 的改进版，显著提升提示跟踪、输出一致性和自然度，支持中、日、韩等多语言。通过 WavTokenizer 实现文字与语音 Token 对应，提供语音克隆和自定义读音功能。模型在更大、多样化数据集上训练，扩展词汇量至超 50 亿音频提示标记。

2024-11-29 11:56:10 1466

原创 nano-GraphRAG：一种轻量级且可定制的GraphRAG实现【简洁易用，适合项目集成】

nano-GraphRAG在保持GraphRAG核心功能的同时，通过降低资源消耗提高查询效率，以及提供更简洁的代码实现，实现了性能上的提升。作为一个轻量级、异步和完全类型化的实现，nano-GraphRAG在处理简单查询和大规模数据查询时表现更好，尤其是在资源受限的环境中。而GraphRAG由于其复杂的图结构和多跳推理需要深入分析和复杂逻辑的查询时可能更有优势。

2024-11-29 11:55:07 2384

原创微软LazyGraphRAG框架：索引成本约GraphRAG的0.1%

微软近日发布了GraphRAG的迭代版本LazyGraphRAG，解决了原版在处理全局数据查询时高成本和延迟的问题。LazyGraphRAG在数据索引阶段不进行预先总结，采用NLP名词短语提取和图统计优化概念图，显著降低了索引成本（仅为原版的0.1%）。查询处理方面，LazyGraphRAG结合最佳优先搜索和广度优先搜索，动态选择相关社区，提升查询效率和准确性。适用于中小企业和个人开发者，适合内容推荐系统和项目管理工具等场景。实验表明，LazyGraphRAG在不同预算下均表现出色，兼具低成本和高性能优势。

2024-11-29 11:53:54 848

原创阿里震撼发布Qwen2.5“全能套装”——打造史上最大规模开源盛宴

在 Qwen2 发布后的过去三个月里，许多开发者基于 Qwen2 语言模型构建了新的模型。Qwen2.5。

2024-09-20 11:37:09 2129

原创 GraphRAG可视化方案

通过 GraphRAG 构建索引数据后，把图数据存储在Parquet文件，在 GraphRAG 执行query时，是使用Python的Pandas库从Parquet文件中读取数据，并将结果存储在一个Pandas DataFrame对象中，然后进行一些数据处理查询。疑问：GraphRAG构建的图谱是什么样子的？质量如何？检索效果不好时，该从哪个角度分析数据进而完善图数据？那么可视化是最直观、最简便的方案了，今天我们一起看一下GraphRAG可视化方案的最佳实践。

2024-09-20 11:35:01 1826

原创认识GraphRAG

总之，Graph RAG是一种基于知识图谱的检索增强技术，它通过结合大语言模型LLM，实现了对用户输入的query进行实体提取、子图构造和上下文学习，从而提高了信息检索的完整性和准确性。Graph RAG的应用将极大地推动智能问答、自然语言处理等领域的发展，为人类的生活和工作带来更加便捷、智能的体验。

2024-09-20 11:31:08 1015

原创 MemoRAG｜下一代 RAG 框架

与传统的 RAG 不同，MemoRAG 利用其内存模型来实现对整个数据集的全局理解记忆，通过从记忆中生成查询特定线索来增强证据检索，还会从数据集的“记忆”中提取信息，从而生成更准确和上下文丰富的答案。进入MemoRAG，这是一个突破性的框架，它通过集成长期记忆功能将 RAG 推向新领域，实现更深入的上下文理解和更准确的信息检索。该模型生成线索或部分答案，指导相关信息的检索。：一个更强大、更具表现力的语言模型，它根据记忆模型生成的线索，从数据库中检索必要的证据，并生成最终的高质量答案。

2024-09-20 11:28:15 1217

原创 LLM RAG|攻克切片难题

今日AI资讯今天主要针对Langchain的文档切分中4个难点进行展开。

2024-03-26 22:18:20 6429

原创本地部署|马斯克旗下xAI开源的Grok-1

今日AI资讯今天主要了解一下Grok-1模型规格、本地部署需要有哪些储备、本地部署的步骤以及部署过程中FAQ。

2024-03-26 22:13:11 7293 2

原创 TTS文本合成语音｜Sambert微调

语音合成(Text-to-Speech, TTS)是指将输入文字合成为对应语音信号的功能，即赋予计算机“说”的能力，是人机交互中重要的一环。现代语音合成在2016年随着WaveNet的出现步入了深度学习合成时代，此时语音合成的效果已经表现出了比拟真人的水准。一个语音合成系统通常由两部分组成，分别是语言分析部分和声学系统部分，也被称为前端部分和后端部分。语言分析：根据输入的文字信息进行分析，生成对应的语言学特征(梅尔频谱)，想好该怎么读；声学系统：根据语音分析部分提供的语音学特征，生成对应的音频，实现。

2024-03-26 22:09:12 2390