目录
下文需要include的MNN库和自带库
#include <MNN/ImageProcess.hpp>
#define MNN_OPEN_TIME_TRACE
#include <algorithm>
#include <fstream>
#include <functional>
#include <memory>
#include <sstream>
#include <vector>
#include <MNN/expr/Expr.hpp>
#include <MNN/expr/ExprCreator.hpp>
#include <MNN/AutoTime.hpp>
#include <MNN/Interpreter.hpp>
#define STB_IMAGE_IMPLEMENTATION
#define STB_IMAGE_WRITE_IMPLEMENTATION
#include <iostream>
#include <vector>
#include <chrono>
#include <numeric>
#include <algorithm>
using namespace std;
using namespace MNN;
using namespace MNN::CV;
using namespace MNN::Express;
创建会话
//通过磁盘文件创建解释器(加载模型)
std::shared_ptr<Interpreter> net;
net.reset(Interpreter::createFromFile("../17.mnn"));
//创建会话
ScheduleConfig conf;
auto session = net->createSession(conf);
输入数据
获取输入tensor
net:前面创建的解释器(加载的模型)
session:前面创建的会话
“Input1”:输入层的名称。如果这项为NULL则默认使用第一个输入层。
auto input = net->getSessionInput(session, "Input1");
这里有个坑,我之前转换模型的时候明明设置的名称是“input”和“output”,保存模型的时候输入层自动变成了“Input1”,输出层还是“output”,这个现象我是通过netron查看网络结构发现的。
可以使用input的print方法查看其shape和数据,也可以用printShape方法查看shape。
input->print();
数据处理
我这里做的是提取梅尔频谱。用到了librosa库的c++版本,其与python版本的librosa大致相同,有一些细微差别(比如stft少了个“窗的宽度”的参数,其默认与fft的宽度相同,我改了很久把自己需要的窗宽度加进去了)。
#include "librosa/test/wavreader.c"
#include "librosa/librosa/librosa.h"
std::vector<std::vector<std::vector<float>>> melImg = mel();
如果是输入图像,可以自行使用Opencv或者MNN的FreeImage解决。Opencv解决方案大致流程如下,FreeImage解决方案参考官方文档。
//直接include opencv会出现报错说什么opencv源码出现错误,具体报错内容忘了,
//当时上网查了一下说在第一行加个这个就可以了,试了一下果然可以。
#define OPENCV_TRAITS_ENABLE_DEPRECATED
#include <opencv2/opencv.hpp>
//用opencv读取图像
cv::Mat m1 = blablablabla...;
//创建一个config用于对图像进行预处理设置
ImageProcess::Config config;
//均值归一化
float mean[1]={0.0f};
float normals[1]={1.0f};
::memcpy(config.mean, mean, sizeof(mean));
::memcpy(config.normal, normals, sizeof(normals));
//根据config文件得到一个pretreat对象,后面会用到
std::shared_ptr<ImageProcess> pretreat(ImageProcess::create(config));
ps:如果引入了Opencv,编译问题会比较麻烦,我把Opencv的编译过程整合进本文最后的CMakeLists.txt中了(虽然我的代码并没有用到2333)
将处理后的数据存入Tensor
我的方法是直接将梅尔频谱的值遍历存入Tensor,简单粗暴,但是要自行处理输入数据的维度顺序(这个地方我搞了很久,后来才发现输入维度的顺序不对,很坑)。
for(int i=0;i<10;i++){
for(int j=0;j<64;j++){
m1.at<float>(j,i) = melImg[0][i][j];
input->host<float>()[64*i+j] = melImg[0][i][j];
}
}
如果输入是图像,可以使用前面数据处理得到的pretreat对象的convert方法,注意width和height不要反了,如果反了可以自行调整(具体哪个是哪个我也忘了。。。)。
int width = 10;
int height = 64;
pretreat->convert(m1.data, width, height, 0, input);
运行会话
net->runSession(session);
获取输出
auto outputTensor = net->getSessionOutput(session, "output");
同样,name如果有问题的话可以使用netron查看。
outputTensor也有print方法和printShape方法。
outputTensor->print();
可以将输出转为Expr型。
auto output = Variable::create(Expr::create(outputTensor));
使用CMakeLists.txt进行编译
#cmake版本
cmake_minimum_required(VERSION 3.10)
#工程名字,随便设置的好像没啥影响
project(aaa)
#自动寻找opencv库,可以自行指定寻找的路径和匹配的版本
find_package(OpenCV REQUIRED PATHS /usr/local NO_DEFAULT_PATH)
#find_package(OpenCV REQUIRED 4 PATHS /usr/local NO_DEFAULT_PATH)
#指定一大堆东西,这里我没仔细看反正拿来用就对了
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11") # -std=gnu++11
set(PATH ${PROJECT_SOURCE_DIR})
SET(CMAKE_CXX_FLAGS_DEBUG "$ENV{CXXFLAGS} -O0 -Wall -g2 -ggdb")
SET(CMAKE_CXX_FLAGS_RELEASE "$ENV{CXXFLAGS} -O3 -Wall -fPIC")
message(${PATH})
#指定gcc和g++编译器。如果是交叉编译可以把下面的gcc和g++,更换为指定的交叉编译器
set(CMAKE_C_COMPILER gcc)
set(CMAKE_CXX_COMPILER g++)
#指定MNN库的路径
set(MNN_DIR /home/MNN-master)
include_directories(${MNN_DIR}/include)
include_directories(${MNN_DIR}/include/MNN)
include_directories(${MNN_DIR}/tools)
include_directories(${MNN_DIR}/tools/cpp)
include_directories(${MNN_DIR}/source)
include_directories(${MNN_DIR}/source/backend)
include_directories(${MNN_DIR}/source/core)
include_directories(${MNN_DIR}/source/cv)
#指定librosa和opencv的路径
include_directories(/home/gongcheng)
include_directories( ${OpenCV_INCLUDE_DIRS} )
#指定可执行文件和源代码
add_executable(segment segment.cpp)
#指定需要的动态库,需要哪个加哪个
target_link_libraries(segment ${MNN_DIR}/build/libMNN.so ${MNN_DIR}/build/express/libMNN_Express.so
)
路径目录
audio(工程文件夹)
segment.cpp
CMakeLists.txt
编译过程
首先根据CMakeLists.txt自动生成makefile文件
mkdir build
cd build
cmake ..
然后在build路径下直接make就好
make