![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音识别
文章平均质量分 88
唐生一
The matrix
展开
-
【Keras】fit_generator的使用
前言前段时间在训练模型的时候,发现当训练集的数量过大,并且输入的图片维度过大时,很容易就超内存了,举个简单例子,如果我们有20000个样本,输入图片的维度是224x224x3,用float32存储,那么如果我们一次性将全部数据载入内存的话,总共就需要20000x224x224x3x32bit/8=11.2GB 这么大的内存,所以如果一次性要加载全部数据集的话是需要很大内存的。如果我们直接用keras的fit函数来训练模型的话,是需要传入全部训练数据,但是好在提供了fit_generator,可以分批次的转载 2020-08-30 11:23:40 · 3148 阅读 · 0 评论 -
【语音识别】关于多层LSTM的结构解读
首先明确一点,RNN单元的输入输出的维度,点击参考keras.layers.RNN()文档输入尺寸3D 张量,尺寸为 (batch_size, timesteps, input_dim)。输出尺寸如果 return_state:返回张量列表。 第一个张量为输出。剩余的张量为最后的状态, 每个张量的尺寸为 (batch_size, units)。如果 return_sequences:返回 3D 张量, 尺寸为 (batch_size, timesteps, units)。否则,返回尺寸为 (b原创 2020-08-11 16:22:22 · 3055 阅读 · 1 评论 -
【语音识别】keras.layers.LSTM的调用过程
此文就LSTM的主要程序片段以及我认为的重要信息进行展开。大致结构如下,辅以一些if判断选择不同的lstm实现函数#mermaid-svg-uFRFHcp96TMEmrUj .label { font-family: 'trebuchet ms', verdana, arial; font-family: var(--mermaid-font-family); fill: #333; color: #333; }#mermaid-svg-uFRFHcp96TMEmrUj .la原创 2020-08-11 16:14:36 · 1276 阅读 · 0 评论 -
声道
声道(Sound Channel) 是指声音在bai录制或播放时在不同空间位置采集或回放du的相互独立的音zhi频信号,所以声道数也就dao是声音录制时的音源数量或回放时相应的扬声器数量。1.单声道单声道是比较原始的声音复制形式,早期的声卡采用的比较普遍,当通过两个扬声器回放单声道信息的时候,我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的。2.立体声单声道缺乏对声音的位置定位,而立体声技术则彻底改变了这一状况。声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。这种技术在转载 2020-08-03 16:28:29 · 431 阅读 · 0 评论