Wllama简介
Wllama是llama.cpp的WebAssembly绑定,允许在浏览器中直接运行大语言模型(LLM)推理,无需后端或GPU支持。这个开源项目为Web开发者提供了一种在前端实现AI能力的强大工具。
主要特性
- 支持TypeScript
- 使用WebAssembly SIMD直接在浏览器中运行推理
- 高级API:completions、embeddings
- 低级API:分词、KV缓存控制、采样控制等
- 支持将模型拆分为小文件并并行加载
- 自动根据浏览器支持切换单线程和多线程版本
- 推理在Worker中进行,不阻塞UI渲染
快速开始
- 安装Wllama:
npm install @wllama/wllama
- 在React项目中使用:
import { Wllama } from '@wllama/wllama';
const wllama = new Wllama(CONFIG_PATHS);
await wllama.loadModelFromUrl("https://example.com/model.gguf");
const output = aw