使用sherpa-onnx给文字添加标点符号

12 篇文章 0 订阅
8 篇文章 0 订阅

上篇文章https://blog.csdn.net/AWNUXCVBN/article/details/138372795 识别出的文字都是没有标点符号的,虽然可以添加整句断行,但总觉得怪怪的…… 于是看了一下,ncnn没有添加标点符号的功能,翻了一下onnx有示例,但没有C#的,于是照着搞了一番

using System.Runtime.InteropServices;

namespace SherpaOnnx
{
    public class OfflinePunctuation : IDisposable
    {
        private HandleRef _handle;

        public OfflinePunctuation(SherpaOnnxOfflinePunctuationConfig config)
        {
            IntPtr intPtr = OfflinePunctuation.SherpaOnnxCreateOfflinePunctuation(config);
            this._handle = new HandleRef(this, intPtr);
        }

        public string AddPunctuation(string text)
        {
           return SherpaOfflinePunctuationAddPunct(this._handle.Handle,text);
        }

        public void Dispose()
        {
            this.Cleanup();
            GC.SuppressFinalize(this);
        }

        ~OfflinePunctuation()
        {
            this.Cleanup();
        }

        private void Cleanup()
        {
            OfflinePunctuation.DestroyOfflinePunctuation(this._handle.Handle);
            this._handle = new HandleRef(this, IntPtr.Zero);
        }

        [DllImport("sherpa-onnx-c-api", EntryPoint = "SherpaOnnxDestroyOfflinePunctuation")]
        private static extern IntPtr DestroyOfflinePunctuation(IntPtr handle);

        [DllImport("sherpa-onnx-c-api", EntryPoint = "SherpaOnnxCreateOfflinePunctuation")]
        private static extern IntPtr SherpaOnnxCreateOfflinePunctuation(SherpaOnnxOfflinePunctuationConfig config);

        [DllImport("sherpa-onnx-c-api", EntryPoint = "SherpaOfflinePunctuationAddPunct")]
        private static extern string SherpaOfflinePunctuationAddPunct(IntPtr ptr, string text);
    }
}
namespace SherpaOnnx
{
    public struct SherpaOnnxOfflinePunctuationConfig
    {
        public SherpaOnnxOfflinePunctuationModelConfig model;
    }
}

namespace SherpaOnnx
{
    public struct SherpaOnnxOfflinePunctuationModelConfig 
    {
        public string ctTransformer = "";
        public int numThreads = 1;
        public bool debug = true;
        public string provider = "cpu";

        public SherpaOnnxOfflinePunctuationModelConfig (string ctTransformer, int numThreads, bool debug, string provider)
        {
            this.ctTransformer = ctTransformer;
            this.numThreads = numThreads;
            this.debug = debug;
            this.provider = provider;
        }
    }
}
SherpaOnnx.SherpaOnnxOfflinePunctuationConfig soopc = new SherpaOnnx.SherpaOnnxOfflinePunctuationConfig();
SherpaOnnx.SherpaOnnxOfflinePunctuationModelConfig soopmc =
    new SherpaOnnx.SherpaOnnxOfflinePunctuationModelConfig
    (Environment.CurrentDirectory + "/sherpa-onnx-punct-ct-transformer-zh-en-vocab272727-2024-04-12/model.onnx", 1, false, "cpu");
soopc.model = soopmc;
offlinePunctuation = new SherpaOnnx.OfflinePunctuation(soopc);
Console.writeLine(offlinePunctuation.AddPunctuation("When you only have one life that's what makes it special"));

看起来一切顺利,运行一下,不出意外的出意外了
在这里插入图片描述
微信群里@fangjun大佬指点了一番,说是要设置系统使用utf8编码
在这里插入图片描述
设置重启之后,正常了!

在这里插入图片描述
另外,大佬说,这个加标点模型,支持中英文。默认所有的标点,都是中文标点,即使你输入的都是英文。

最后,案发现场在https://github.com/xue-fei/uSherpaServer.git

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

地狱为王

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值