语音不识别-CSDN博客

原创【语音识别框架】语音识别框架之wenet

环境配置https://github.com/wenet-e2e/wenetgit clone https://github.com/wenet-e2e/wenet.git # 克隆源码AIShell 教程我们提供了example/aishell/s0/run.sh关于 aishell-1 数据的配方配方很简单，我们建议您手动逐个运行每个阶段并检查结果以了解整个过程。cd example/aishell/s0bash run.sh --stage -1 --stop-stage -1bas

2022-04-01 23:02:30 9420 16

原创 python实现深度学习工具类

layersfrom function import *import numpy as npclass Sigmoid: ''' sigmoid = 1 / (1 + exp(-x)) ''' def __init__(self): self.params = [] self.grads = [] self.out = None def forward(self, x): self.out = sigmoid(x) return self.out def ba

2022-03-30 20:18:52 1646

原创语音识别框架之kaldi

kaldi环境配置下载https://github.com/kaldi-asr/kaldi.git安装编译依赖库cd kalditools/extras/check_dependencies.sh注意：根据提示安装相关依赖工具安装第三方工具OpenFst：kaldi使用FST作为状态图的表现形式，期待吗依赖OpenFst中定义的FST结构及一些基本操作，因此OpenFst对于Kaldi的编译是不可或缺的，安装方法如下需要g++ 11cd toolsmake openfs

2022-03-29 09:58:49 2690 2

原创 kaldi输入输出机制

kaldi输入输出机制表单经过local文件夹中的预处理脚本的处理，原始数据文件被处理成kaldi的标准格式——表单（table）表单的本质是若干元素的集合，每个元素有一个索引索引必须是一个不包含空格的非空字符串而元素的类型取决于创建表单时的定义例如：摇窗机一个音频表单，那么元素的内容就是音频文件名：aduio1 /音频/audio1.wavaudio1 就是索引，后面的路径就是表单元素在kaldi中，所有的数据文件都是以表单形式存储的，比如文本、音频特征、特征变换矩阵表单可

2022-03-14 22:14:05 822

原创常用linux环境配置大全

linux配置环境常见问题git无法访问https，http可以的问题git config --global http.sslverify false配置ubantu镜像源cp /etc/apt/sources.list /etc/apt/sources.list.bakecho ''>/etc/apt/sources.listecho deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial main restricted uni

2022-03-12 11:14:43 2282

原创 Python的亿点点小技巧

实用技巧列表推导式# 升级版的for循环# 遍历B中的每个元素i，可以在A处操作i# 返回一个list# [A(i) for i in B]控制台花样

2021-09-09 19:55:50 224

原创听歌识曲算法技术[语音识别]

概念理解：语音识别：通过一种语音检索算法来识别一段音频内容的含义。音频文件：指带有声音的文件，比如音乐。时域：振幅Y和时间T的关系。频域：振幅Y和频率F的关系。短时傅里叶变换：通过对每个时间极短的音频片段做傅里叶变换，来得到这个时间段的频率分布，之所以成为短时，是因为这个算法只有再短时内语音音频的频率以及振幅是比较平稳的，如果时间过长就会导致傅里叶变换不准确。频谱图：每个时间点出现的频率分布图，即每一帧或者每时刻上出现的频率数值和振幅数值，为了用二维数据表示这个三维数据，把振幅压缩到

2021-09-05 20:48:08 4966 4

原创【美化命令行教程】

是在oh-my-posh的安装路径下这个路径很重要，下面GIT会用到。记得主题路径，我的是。

2023-05-10 14:37:06 1151 1

原创【Linux】普通用户提权root权限-虽然文章短，但是精悍

验证有没有sudo权限。

2023-05-08 15:25:00 544

原创【Flink SQL】基本概念

WATERMARK 定义了表的事件时间属性，其形式为rowtime_column_name 把一个现有的列定义为一个为表标记事件时间的属性。该列的类型必须为 TIMESTAMP(3) ，且是 schema 中的顶层列，它也可以是一个计算列。watermark_strategy_expression 定义了 watermark 的生成策略它允许使用包括计算列在内的任意非查询表达式来计算 watermark触发watermark的前提条件。

2023-05-06 14:15:23 1244

原创【WSL】vmware和wsl切换

【代码】【WSL】vmware和wsl切换。

2023-05-02 20:43:34 880

原创【Nginx】生成SSL证书

生成证书脚本genkey.sh。

2023-02-03 09:53:58 463

原创 [ 大数据 ] hadoop之MapReduce 过程文字详解

hadoop之MapReduce 过程文字详解

2022-09-13 14:51:26 789

原创解决打不开GITHub

解决打不开github

2022-09-08 19:58:53 83

原创【爬虫】数据提取之JSONpath

jsonpath常用于json数据结构嵌套层次比较复杂的时候，如果比较简单的结果，直接使用 json模块即可。

2022-07-02 09:58:48 602

原创【爬虫】数据提取之xpath

爬虫之数据提取之xpath

2022-07-02 09:40:27 660

原创【MySQL】数据库基本操作

数据库操作

2022-06-08 19:34:09 213

原创 python网络编程

python网络编程

2022-06-05 15:08:59 130

原创切换G++版本

切换G++版本1.如何查看编译器的版本# 查看当前gcc的版本gcc -v# 查看当前g++的版本g++ -v2.如何查询系统当前已安装的编译器版本# 编译器一般都安装在/usr/bin下cd /usr/bin# 查看已安装的编译器ls g++*ls gcc*3.如何安装需要的编译器版本# 例如安装版本为4.8的编译器sudo apt-get install gcc-4.8 g++-4.84.将已安装的编译器版本加入到候选表中 #最后的数字是优先级，可以根据需要设置

2022-05-04 10:59:48 1914

原创 [语音识别框架之wenet] 使用CPU训练自定义数据集大小的AISHELL-Sample教程

数据集下载下载地址1.准备 wav.scp text# 数据集存放的位置sample_data=/home/asr/data/wenet/examples/aishell/s0/datasets/AISHELL-1_sample# 数据生成的地方data=/home/asr/data/wenet/examples/aishell/s0/data_if [ ! -d $data ];then mkdir -p $datafi# 初始化rm -rf $data/wav.scprm

2022-04-24 10:56:33 3974 41

原创解决linux录音设备占用问题

原因这种问题出现的原因是arecord调用录音设备的问题，在运行程序的时候使用了ctrl+z再次运行时，会报OSerror，main:852等错误信息解决无法录音的问题：方法1使用fg，再用ctrl+c方法2：查询arecord占用的端口号，ps -fs | grep arecord杀掉该所有进程，kill -9 arecord进程，...

2022-04-19 08:15:52 835

原创 [骚操作]shell同时读取多个文件

示例exec 3<pre_data/wav.scp exec 4<pre_data/textexec 5<pre_data/textwhile read wav <&3 && read txt <&4 && read txt1 <&5do key=`echo $wav | awk -F ' ' '{ printf $1}'` wav=`echo $wav | awk -F ' ' '{

2022-04-17 21:23:31 2446 4

原创语音识别技能汇总

语音识别技能汇总常见问题汇总import warningswarnings.filterwarnings('ignore')基础知识Attention-注意力机制原理：人在说话的时候或者读取文字的时候，是根据某个关键字或者多个关键字来判断某些句子或者说话内容的含义的。即通过对上下文的内容增加不同的权重，可以实现这样对局部内容关注更多。常用语音识别工具相关包的安装pip install pygameSpeechRecognitionplaysoundlibrosa读取音频数据s

2022-04-09 00:37:16 2916

原创在线实时语音识别实现【完善中-本地测试已完成，只差服务器功能】

基本流程环境搭建客户端环境录音模块pip install pyaudio服务器环境flask客户端录音模块缓冲区发送数据缓冲区数据接收数据识别结果服务器端接收缓冲区数据调用识别接口传入缓冲区数据返回识别文字发送识别文字给客户端环境准备相关包的安装pip install pygameSpeechRecognitionplaysoundlibrosa客户端录音模块获取麦克风数据以及保

2022-04-08 13:40:02 4635 9

原创【wsl】window子系统ubantu安装cuda 显卡3060

GPU-cudawindow11 wsl安装cuda 显卡3060查看显卡这个默认就有的，如果安装不对不会显示显卡信息，跟conda环境也有关系nvidia-smi查看cuda版本，这个版本和通过window下查看的版本不一样，window下的是驱动版本，没有安装cuda-toolkit之前没有个命令(GPU) root@DESKTOP-UHU0SVF:~# nvcc --versionnvcc: NVIDIA (R) Cuda compiler driverCopyright (c)

2022-04-05 23:42:39 1851

原创 [源码解析]ESPnet脚本源码解析-aishell-asr.sh

这段代码是ESPnet案例里面的aishell的asr里面的运行总脚本asr.sh 传送门解析参数#!/usr/bin/env bash# Set bash to 'debug' mode, it will exit on :# -e 'error', -u 'undefined variable', -o ... 'error in pipeline', -x 'print commands',set -eset -uset -o pipefaillog() { local f

2022-04-04 22:11:54 4324

原创语音识别框架之ESPnet

ESPnet 是一个端到端的语音处理工具包，涵盖了端到端的语音识别、文本到语音、语音翻译、语音增强、说话者分类、口语理解等。ESPnet 使用pytorch作为深度学习引擎，还遵循Kaldi风格的数据处理、特征提取/格式和配方，为各种语音处理实验提供完整的设置。克隆git clone https://github.com/espnet/espnet官网文档安装ESPnet使用官网安装的过程会很慢，下载限速手动下载相关包cd <espnet-root>/toolsmake CPU

2022-04-01 23:13:34 4500

原创 [Python]控制终端输出文字

class bcolors: HEADER = '\033[95m' OKBLUE = '\033[94m' OKGREEN = '\033[92m' WARNING = '\033[93m' FAIL = '\033[91m' ENDC = '\033[0m' def disable(self): self.HEADER = '' ...

2022-03-30 21:58:17 743

原创基于WENET制作AI字幕

基于WENET制作AI字幕wenet环境配置获取视频并转音频安装处理视频工具安装ffmpeg：https://blog.csdn.net/zhouyj6516/article/details/107416209ffmpeg参数：https://www.cnblogs.com/mwl523/p/10856633.htmlmp4转wav脚本ffmpeg -i cs.mp4 -vn -ar 16000 -ac 1 -ab 192 -f wav cs.wav脚本#!/usr/bin/bash

2022-03-29 09:53:53 3777 2

原创迁移学习-freeze和finetune

自定义数据集# -*- I Love Python!!! And You? -*-# @Time : 2022/3/28 17:08# @Author : sunao# @Email : 939419697@qq.com# @File : hymData.py# @Software: PyCharmimport torchfrom torch.utils.data import Dataset,DataLoaderfrom torchvision import tran

2022-03-28 22:12:05 591

原创 pytorch实现Unet模型

自定义数据集# -*- I Love Python!!! And You? -*-# @Time : 2022/3/27 12:25# @Author : sunao# @Email : 939419697@qq.com# @File : img_segData.py# @Software: PyCharmimport matplotlib.pyplot as pltimport numpy as npimport torchfrom PIL import Image

2022-03-27 21:49:06 5318

原创快速入门Docker

DockerDocker三要素：镜像（image）、容器（contarin）、registry(包含多个仓库) **镜像：**顾名思义就是咱们将要把代码和环境打包在一起的这个产物，就是镜像。 **registry：**那么镜像存储在哪里呢所以就有了registry，是各云厂商提供的镜像存取服务，类似网盘，将镜像存储在云端仓库，方便我们随时随地在不同的介质上运行自己的代码或分享代码。比如你要把本地开发好的代码放在服务器上做耗时的训练动作，那么只需要在服务器上直接拉取自己云端的镜像运行即可。当然除了存储以外

2022-03-22 13:07:17 712

Kaldi学习笔记1.md

Kaldi学习笔记1备份.md

strawberry-perl-5.26.2.1-64bit.msi

免费下载[srilm-1.7.3.tar].zip

深度学习-卷积神经网络.md

机器学习思想.xmind

学习线性代数笔记.md

学习高等数学笔记.md

概率论与数理统计.md

Python环境配置.md

空空如也