探索纯 .NET 环境中的本地大语言模型集成

最新推荐文章于 2024-06-21 23:42:51 发布

寒冰屋

最新推荐文章于 2024-06-21 23:42:51 发布

阅读量65

点赞数

分类专栏： CSharp.NET 人工智能文章标签： .net LLM

原文链接：https://mp.weixin.qq.com/s?__biz=MzAwNTMxMzg1MA==&mid=2654099344&idx=3&sn=420cbadf361111ef5b10dcf485f2571b&chksm=80d873c5b7affad3ceecdf58e60080abe16b52a36706ab97ef7c317e64fd84faa4a0cf570085&mpshare=1&scene=23&srcid=0509DjkovAQ5kB9q3PHDfwnS&sharer_shareinf

版权

CSharp.NET 同时被 2 个专栏收录

1103 篇文章 49 订阅

订阅专栏

人工智能

491 篇文章 53 订阅

订阅专栏

Demo

结论

在前面的文章中，我们尝试了通过 Ollama/LM Studio 来集成本地大型语言模型（LLM）。

在本文中，我们将深入探讨如何在纯.NET环境中集成和运行这些强大的模型，而无需依赖任何外部服务。

微软最近发布的Phi-3 Mini模型的ONNX版本，为.NET开发者打开了新的大门。这个版本不仅支持多种硬件平台，还为在.NET环境下本地运行LLM提供了实际的可能性。这意味着开发者现在可以在他们自己的系统中直接运行和集成LLM，享受到更快的响应速度和更高的数据隐私保护。

Demo

为了演示这一过程，我们首先创建一个新的控制台应用程序，并安装必要的NuGet包。

Microsoft.ML.OnnxRuntimeGenAI 包允许我们的应用程序利用ONNX运行时库调用ONNX模型，这是一个高效的运行时库，支持从CPU到GPU等多种硬件平台。

接下来，我们可以到https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-onnx下载Phi-3 Mini的ONNX模型

它提供了支持cpu_and_mobile、cuda或者directml的版本，你可以选择适合你硬件的模型版本。

接下来，我们就可以开始编码，代码示例展示了如何加载模型、处理输入问题、设置生成器参数，并最终生成模型的响应。

var modelPath = @"d:\Phi-3-mini-4k-instruct-onnx\cpu_and_mobile\cpu-int4-rtn-block-32";
var model = new Model(modelPath);
var tokenizer = new Tokenizer(model);

var input = "who are you?";
var prompt = $"<|user|>\n{input} <|end|>\n<|assistant|>\n";
var tokens = tokenizer.Encode(prompt);

var generatorParams = new GeneratorParams(model);
generatorParams.SetSearchOption("max_length", 2048);
generatorParams.SetInputSequences(tokens);

var generator = new Generator(model, generatorParams);

while (!generator.IsDone())
{
    generator.ComputeLogits();
    generator.GenerateNextToken();
    var outputTokens = generator.GetSequence(0);
    var newToken = outputTokens.Slice(outputTokens.Length - 1, 1);
    var output = tokenizer.Decode(newToken);
    Console.Write(output);
}