- 博客(201)
- 资源 (12)
- 收藏
- 关注
原创 到底谁更快:MTP 对比 EAGLE-3
本文对比测试了llama.cpp中MTP和EAGLE3两种加速技术在Gemma4-26B/31B模型上的表现。测试结果显示,在显存充足时MTP的生成速度是原版的1.8倍,而EAGLE3表现不佳。目前选择MTP方案更佳。
2026-06-18 03:19:15
155
原创 把谷歌的QAT模型用于生产系统了吗?赶快踩刹车!
大家发现QAT模型可能有些问题,请慎重选择,建议先观望QAT的发展,暂时用普通的Gemma量化模型吧,或者继续用Qwen。
2026-06-11 16:48:13
164
原创 旧电脑能跑本地模型吗?6GB显存跑起来是啥样子?
本文测试了在不同配置电脑上运行本地大语言模型(LLM)查询B站热门视频的表现。在旧笔记本上测试了Qwen3.5-9B和gemma-4-E4B两个模型,作为对比项,使用了配备4060Ti-16GB显卡的台式机。
2026-06-10 15:01:48
212
原创 本地模型都这么强了?16GB级别LLM工具能力不完全体验
本文对比测试了本地部署的Qwen和Gemma语言模型在工具调用任务中的表现。通过理论评测和实际场景测试发现: 当前本地小模型已能较好地自主调用工具,展现了本地模型应用的可能性。
2026-06-09 15:03:51
273
原创 继续提速:Llama.cpp 已经正式支持 Gemma4 MTP
摘要:本文测试了多个 Gemma4 模型在原版llama.cpp支持MTP(Multi-Token Prediction)后的性能表现。各个规模的模型均有提升,有些模型提升挺大的,值得使用。
2026-06-07 23:14:11
651
原创 谷歌发布了 Gemma 4 QAT (Quantization-Aware Training) 模型
谷歌发布Gemma 4系列QAT(量化感知训练)模型,通过在训练阶段模拟量化过程,显著降低后续量化时的精度损失。
2026-06-06 21:55:16
531
原创 到底谁更快:MTP 对比 DFlash:英文居然最重要?
实测MOE模型加MTP的速度比较可观。而 beellama 的 DFlash 存在重复字符循环问题,接受率和生成速度可能被异常放大,关于DFlash部分速度的结果,暂不具备参考价值。
2026-05-31 01:42:58
342
原创 记一次成功的本地部署 LLM MTP 模型的过程
官方llama.cpp现已支持MTP模型,无需单独draft模型。使用最新二进制程序和Qwen3.6-35B-A3B-UD-IQ2_M.gguf模型,通过添加--spec-type draft-mtp和--spec-draft-n-max 2参数可显著提升推理速度。测试显示,关闭推理模式后,RAG性能接近在线LLM,生成速度大幅提升(draft接受率达88.6%)。建议显存充足的用户尝试MTP优化,尤其适合本地LLM的RAG应用。
2026-05-17 03:20:05
524
原创 记一次失败的本地部署 LLM MTP 模型的过程
本文实测了Gemma-4-26B模型在多token预测(MTP)技术下的性能表现。通过ik_llama.cpp分支测试发现,当显存不足24GB时,MTP加速效果受限:在4060Ti显卡(16GB显存)上运行会触发共享显存机制,导致生成速度反而降至3分44秒,远慢于原版llama.cpp的1分34秒。测试数据显示,MTP技术虽在理想条件下可实现2倍加速(如作者测试的49t/s),但实际应用中显存容量成为关键瓶颈。
2026-05-16 23:23:27
704
原创 企业知识库RAG到底有多难:实战3:向量化与存储
这篇文章重点讲解了如何通过LlamaIndex实现向量数据库的抽象统一和数据处理流程。作者强调了调试模式的重要性,建议在正式入库前先人工检查node质量,包括metadata完整性、文本长度合理性等。文章详细说明了初始化向量数据库、构建文档node、统计分析metadata以及观察最大最小node等关键步骤,并指出这些预处理工作能有效避免后续检索质量问题。整个工具设计注重灵活性和可维护性,支持多种向量数据库的无缝切换。
2026-05-10 19:35:23
378
原创 企业知识库RAG到底有多难:实战1:原始文档处理
这篇文章主要讨论了文档处理过程中遇到的格式转换和质量问题,以及如何优化文档结构以便LLM更好地理解。作者分享了将PDF、Word、PPT等格式转换为Markdown的经验,指出企业内部文档常见的质量问题(如术语混乱、省略信息、错别字等)。文章还探讨了文档转换中的技术挑战,包括章节结构、标识转义、表格处理等细节问题。
2026-05-03 12:04:01
397
原创 企业知识库RAG到底有多难:理论知识部分
本文系统分析了传统RAG(检索增强生成)技术的核心问题与改进方向。原始RAG流程存在文档结构丢失、文本切割不合理、语义理解不足等缺陷,导致检索效果不佳。
2026-05-01 08:15:35
441
原创 本地跑LLM模型哪家强:Qwen3.5+3.6 vs Gemma4 的个人实测
本地大模型部署评测报告 本文对比测试了Qwen和Gemma系列模型在本地环境(i9-12900F/RTX4060Ti/64GB)下的表现。通过llama.cpp框架评测了7款量化模型,重点考察了RAG能力和视觉识别表现。
2026-04-23 20:38:32
1376
原创 过去换脸现在换头?ComfyUI+LTX2.3+BFS In Context LoRA
BFS是一套基于LTX的视频换脸流程,通过持续注入参考脸实现高一致性与稳定生成。
2026-04-10 23:45:53
844
原创 声音克隆开源项目VoxCPM
VoxCPM 2.0是一款支持多语言/方言的语音合成系统,相比1.x版本在音质和功能上有显著提升。同时资源占用也大了些。
2026-04-10 22:57:26
691
原创 人工智能发展对人类和环境的危害
本文探讨了人工智能发展的双面性及其潜在负面影响。主要问题包括:AI导致互联网虚假信息泛滥、知识产权保护失效、个人隐私受威胁、加剧社会不平等、对欠发达地区的剥削加剧等。同时指出AI发展带来的深层忧虑:人类角色被弱化,以及AI系统运行消耗巨大能源等问题。作者采用AI批判AI的独特视角,但承认该研究存在数据准确性待验证、呈现格式受限等不足。全文揭示了AI技术快速发展背后值得警惕的多重隐忧。
2025-06-09 01:03:32
471
原创 为(FramePack)的视频生成提高速度
摘要:作者测试了FramePack项目中不同注意力机制的安装与提速效果。使用官方整合包成功安装了xformers,在4060Ti显卡上观察到生成速度从12秒/迭代提升至8秒/迭代。测试显示生成5秒视频耗时约15分钟。作者提到Sage Attn可能更快。本文记录了具体安装命令和环境配置过程,并附有相关GitHub讨论链接。(149字)
2025-06-03 15:12:03
974
原创 为(FramePack)的视频生成添加首尾帧功能
本文介绍了FramePack图生视频项目新增的尾帧控制功能。作者指出官方代码原本仅支持首帧,但通过用户提交的PR(#167)现已实现对尾帧的控制。虽然该修改尚未被官方合并,但用户只需手动替换demo_gradio.py文件即可使用新功能。测试显示界面仅增加了尾帧选项,功能运行正常。文末附有实际应用示例的B站演示视频链接,展示了首尾帧控制的具体效果。该功能为6GB显存笔记本本地运行图生视频项目提供了更多创作可能性。
2025-05-27 17:15:29
1162
原创 模拟器DTXMania的DTX文件格式规范
需要注意的是,由于BGA相关通道的限制,在至少第0小节开始演奏之前无法显示通过#BMPzz指定的图片。由于BandJAM不识别#BACKGROUND指令,因此可以通过先指定#WALL再指定#BACKGROUND的方式,分别设置适用于BandJAM和DTXMania的不同背景图片(在DTXMania中,后指定的指令优先级更高)。在DTXMania中,空击(无芯片处的击打)时会发出最近芯片的声音,因此可用于有意修改“最近芯片”或在曲目中没有低音鼓但空击时希望发出某种声音的情况。之前正在播放的视频将被取消。
2025-03-01 01:37:33
1461
原创 本地部署阿里的万象2.1文生视频(Wan2.1-T2V-1.3B)模型
虽然以前SD里也有生成短视频的模型,但效果和这个完全不是一个级别。
2025-02-26 22:23:46
17985
11
原创 音乐游戏Pump It Up(PIU)模拟器
请大家支持Andamiro正版游戏,不将模拟器商业化,Make whatever you love longer。感谢Andamiro的金先生和当时的代理宝辉科技的苏小姐给成都带来了PIU。
2025-02-26 00:52:14
2187
原创 音乐游戏Drummania(GITADORA)模拟器
实现不了的梦想:鼓<Drummania>,吉他<GuitarFreak>,钢琴<KeyboradMania>,三联机玩《The Least 100 sec》……
2025-02-25 23:00:51
2674
原创 用 Next.js 和 Supabase 进行“全栈”开发的入门
从不会WEB到这个,似乎步子跨的有点大。实际也发现了很多问题,搞不懂但是得解决。
2024-05-10 15:25:37
3536
1
原创 Java OpenJDK 8u412 Windows x64
清华镜像:https://mirrors.tuna.tsinghua.edu.cn/Adoptium/8/jdk/x64/windows/
2024-05-07 09:22:59
1113
原创 用docker方式安装openGauss数据库的事项记录
我们的国产化们:panweiDB,openGauss,Postgres。GoldenDB,mySQL……
2024-04-25 16:54:44
4043
6
原创 Java OpenJDK 8u402 Windows x64
清华镜像:https://mirrors.tuna.tsinghua.edu.cn/Adoptium/8/jdk/x64/windows/
2024-01-22 09:47:37
1172
Python 3.10.16 Windows x64 Installer
2025-04-01
Stable-Diffusion WEBUI 简体中文语言包(2023.05.30更新)
2023-05-30
Stable-Diffusion WEBUI 简体中文语言包(2023.05.11更新)
2023-05-11
Stable-Diffusion WEBUI 简体中文语言包(2023.05.06更新)
2023-05-06
Stable-Diffusion WEBUI 简体中文语言包(2023.05.01更新)
2023-05-01
Stable-Diffusion WEBUI 简体中文语言包
2023-04-25
TBBmalloc.pas
2022-09-27
zlib v1.2.12(加入了缺少的文件)
2022-09-19
79999_iter.7z
2021-07-27
Windows10下的winhlp32解決方案
2018-12-27
RadStudio 10.4.2 Sydney 简化欢迎页面(Welcome Page)
2021-03-04
Oracle11G的Linux64的sqlldr版本11.2.0.4
2021-11-12
antelope.zip
2021-11-30
RadStudio 10.3 Rio 简化欢迎页面(Welcome Page)
2019-01-05
VCLSkin Win10 Style
2018-04-11
通信缩略词典(标准mdx格式)v2.1.4
2020-09-18
通信缩略词典(标准mdx格式)v2.0.7
2019-02-22
VCLSkin Win10(NavyBlue) Style
2018-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅