对tf.argmax()的理解

对 tf.argmax()的理解

此函数时返回指定维度的最大值的索引(一定记住,好多次我都以为是返回值),对于此函数,先看一下函数说明,

tf.argmax(
    		input,
    		axis=None,
    		name=None,
   			dimension=None,
   			output_type=tf.int64 )

这个input 为输入的对象,axis为维度,若为向量,则维度为0;若为多维则可为0或者1,0为按列查找最大值的索引,1为按行查找最大值的索引。
下面看一个例子:

import tensorflow as tf

Vector = [2, 1, 3, 5]  # 定义了一个向量
X = [[2, 6, 1], [3, 1, 9]]  # 定义了一个矩阵
print (Vector)
print (X)
with tf.Session() as sess:
    a = tf.argmax(Vector, 0)
    b = tf.argmax(X, 0)
    c = tf.argmax(X, 1)

    print(sess.run(a))
    print(sess.run(b))
    print(sess.run(c))

运行结果:

3
[1 0 1]
[1 2]

可以看到返回的是索引,而不是数值。
相信这些很多博客也有说明,但是对于每一行或者每一列中有相同大的数应该返回什么呢?好像都没有提及。
下面再看一个例子:

import tensorflow as tf

Vector = [2, 5, 3, 5]  # 定义一个向量
X = [[3, 6, 1], [3, 9, 9]]  # 定义一个矩阵
print (Vector)
print (X)
with tf.Session() as sess:
    a = tf.argmax(Vector, 0)
    b = tf.argmax(X, 0)
    c = tf.argmax(X, 1)

    print(sess.run(a))
    print(sess.run(b))
    print(sess.run(c))

运行结果:

1
[0 1 1]
[1 1]

那可以看到,返回的是第一个最大值的索引。

引用了https://blog.csdn.net/u013580539/article/details/79339250

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当然可以!在这里,我将为你编写一份语音识别的代码,使用MFCC特征和卷积神经网络(CNN)模型。 首先,我们需要安装必要的库,包括tensorflow、numpy和pandas。然后,我们需要准备训练数据和测试数据。训练数据应包含音频文件和相应的文本标签。测试数据只需要包含音频文件。 接下来,我们需要进行数据预处理和特征提取。我们可以使用以下代码来生成MFCC特征: ``` import librosa def extract_mfcc(audio_path): y, sr = librosa.load(audio_path, sr=16000) mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=20) mfcc = np.pad(mfcc, ((0, 0), (0, 80 - mfcc.shape[1])), mode='constant', constant_values=0) return mfcc.T ``` 其,`audio_path`是音频文件的路径,`sr=16000`是采样率,`n_mfcc=20`是MFCC系数数量,`80`是序列长度。我们将MFCC特征处理为大小为`(80,20)`的二维数组,并使用`np.pad()`函数将其填充到`80`的长度。 然后,我们需要使用Keras的Sequential模型定义CNN模型。我们可以使用以下代码来定义模型: ``` from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense model = tf.keras.Sequential([ Conv2D(32, (3, 3), activation='relu', input_shape=(80, 20, 1)), MaxPooling2D((2, 2)), Conv2D(64, (3, 3), activation='relu'), MaxPooling2D((2, 2)), Conv2D(64, (3, 3), activation='relu'), Flatten(), Dense(64, activation='relu'), Dense(10, activation='softmax') ]) ``` 我们使用`Conv2D`层和`MaxPooling2D`层来定义卷积和池化层。我们将输出展平,并使用`Dense`层定义全连接层。最后一层使用softmax激活函数来输出每个类别的概率。 然后,我们需要编译模型并训练模型。我们可以使用以下代码来编译模型: ``` model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) ``` 其,我们使用`adam`优化器,`sparse_categorical_crossentropy`损失函数和`accuracy`指标。 我们可以使用以下代码来训练模型: ``` model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test)) ``` 其,`X_train`和`y_train`是训练数据的特征和标签,`X_test`和`y_test`是测试数据的特征和标签,`epochs=10`是迭代次数。 最后,我们可以使用以下代码来对测试数据进行识别: ``` def recognize_audio(audio_path): mfcc = extract_mfcc(audio_path) mfcc = mfcc.reshape(1, 80, 20, 1) result = model.predict(mfcc) result = np.argmax(result) return label_dict[result] ``` 其,`audio_path`是音频文件的路径,`mfcc`是MFCC特征,`result`是预测结果。我们使用`argmax()`函数获取预测结果的类别,然后使用`label_dict`字典获取类别的标签。 以上就是使用MFCC特征和CNN模型实现语音识别的基本流程。在代码,我们需要调用Keras提供的函数来实现这些步骤。由于代码比较长,我无法在这里完整展示,但是你可以参考Keras的官方文档进行实现。同时,我也非常建议你在代码添加详细的注释,以便于其他人理解
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值