如何用DirectShow实现音频采集

最新推荐文章于 2023-02-05 09:42:41 发布

ucasliming

最新推荐文章于 2023-02-05 09:42:41 发布

阅读量5.4k

点赞数 2

分类专栏： directshow相关文章标签： directshow Directshow DirectShow 音频采集

本文链接：https://blog.csdn.net/blognkliming/article/details/8438777

版权

directshow相关专栏收录该内容

26 篇文章 0 订阅

订阅专栏

现在的所谓多媒体电脑一般都会有声卡（软声卡或硬声卡），有声卡就能进行音频的捕捉。大家一定熟悉Windows自带的附件“录音机”程序，可以通过麦克风进行录音，最终生成一个Wave文件。大家知道，DirectShow对硬件的支持是通过特定的包装Filter来实现的。声卡使用的是Audio Capture Filter，Filter内部使用以waveIn开头的一套API实现（如waveInOpen等）。运行GraphEdit，插入Filter时，在“Audio Capture Sources”目录下，我们就能看到所有代表本地机器上的声卡的各个Filter（有的机器装了几张声卡，这里就会有几个Filter）。在Filter Graph中加入这个Filter，我们发现这个Filter有很多Input pin，如Line In、CD Audio、Microphone、Stereo Mix等等；有一个Capture output pin。需要说明的是，在Filter Graph中，这些Input pin并没有真正的数据流入，它们只是声卡的各个输入端子的象征性表示；所以这些Input pin永远也不用连接。下面我们来看一下何创建一个音频捕捉程序。首先，当然是加入一个Audio Capture Filter。大家知道，DirectShow加入一个硬件Filter，都是要靠“枚举”；声卡Filter也不例外。代表声卡的Filter都注册在CLSID_AudioInputDeviceCategory目录下，使用系统设备枚举器枚举这个目录，就能发现我们想要创建的声卡对象。（如何枚举这里就不再赘述了。）当成功加入声Filter后，接下去的问题就是要将这个Filter与其他Filter相连。比如，我们想捕捉生成一个Wave文件，那么我们还需加入一个Wave Dest Filter和一个File Writer Filter，然后依次将它们相连。需要说明的是，Wave Dest Filter是微软DirectX SDK带的一个例子，在samples\Multimedia\DirectShow\Filters\WavDest目录下，我们必须首先编译这个例子并且注册这个Filter；这个Filter的功能是，当我们结束捕捉时，往Wave文件中写入一个文件头信息。
下面是一段创建音频捕捉程序的框架代码，可供参考：

void BuildAudioCaptureGraph(void) // Warning! No error checking here.
{
IBaseFilter *pSrc = NULL, *pWaveDest = NULL, *pWriter = NULL;
IFileSinkFilter *pSink= NULL;
IGraphBuilder *pGraph;
// Create the Filter Graph Manager.
CoCreateInstance(CLSID_FilterGraph, NULL, CLSCTX_INPROC_SERVER,
IID_IGraphBuilder, (void**)&pGraph);
// Add the audio capture filter. 
FindAudioCapture(&pSrc); // Assume that this function enumerates 
// audio capture devices and picks one.
pGraph->AddFilter(pSrc, L"Capture");
// Add the WavDest and the File Writer.
AddFilterByClsid(pGraph, L"WavDest", CLSID_WavDest, &pWavDest);
AddFilterByClsid(pGraph, L"File Writer", CLSID_FileWriter, &pWriter);
// Set the file name.
pWriter->QueryInterface(IID_IFileSinkFilter, (void**)&pSink);
pSink->SetFileName(L"C:\\MyWackyWav.wav", NULL);
// Hook everything up.
ConnectTwoFilters(pGraph, pSrc, pWavDest);
ConnectTwoFilters(pGraph, pWavDest, pWriter);
}

当然，在进行音频捕捉的同时，我们还可以实时监听音频源的输入。我们在Audio Capture Filter后面接了一个Infinite Pin Tee，这个Filter能够将一个Input pin输入的数据，复制成多份，分别通过各个Output pin发送出去。（这个Filter也是微软DirectX SDK带的一个例子，在samples\Multimedia\DirectShow\Filters\ InfTee目录下。）我们看到Tee Filter的一支连到了DirectSound Renderer，可以将声音放在声卡上输出。创建音频捕捉的应用程序很简单吧！下面，我们还要来讨论一下音频捕捉前可能用到的一些参数设置。在声卡Filter的每个Input pin上，我们都可以得到IAMAudioInputMixer这个接口。通过这个接口，我们可以设置各个输入端子的音频属性，如进行音频合成时是否允许某个输入端子的音频参与混合、音频输入的音量，还有Tree、Bass等等。另外，在Filter上也可以得到IAMAudioInputMixer接口，这时调用接口方法就可以统一控制各个输入端子的属性。音频捕捉，还可以设置的是音频的采样频率以及声音的具体格式（8Bits或16Bits，单声道或双声道）。我们可以通过Capture output pin的IAMStreamConfig来完成。下面的代码可供参考：

HRESULT hr = pCapturePin->QueryInterface(IID_IAMStreamConfig, (void 
**)&pCfg);
// Read current media type/format
AM_MEDIA_TYPE *pmt={0};
hr = pCfg->GetFormat(&pmt);
if (SUCCEEDED(hr))
{
// Fill in values for the new format
WAVEFORMATEX *pWF = (WAVEFORMATEX *) pmt->pbFormat;
pWF->nChannels = (WORD) nChannels;
pWF->nSamplesPerSec = nFrequency;
pWF->nAvgBytesPerSec = lBytesPerSecond;
pWF->wBitsPerSample = (WORD) (nBytesPerSample * 8);
pWF->nBlockAlign = (WORD) (nBytesPerSample * nChannels);
// Set the new formattype for the output pin
hr = pCfg->SetFormat(pmt);
DeleteMediaType(pmt);
}
// Release interfaces
pCfg->Release();

最后，还要提到的一点，也是音频捕捉比较特殊的地方：我们可以通过Capture output pin上的IAMBufferNegotiation接口，改变音频捕捉缓冲的大小，以减少声音播放的延迟。默认情况下，Audio Capture Filter使用0.5秒钟的缓冲。对于一些特殊的应用，这么大的缓冲是没有必要的，带来的延迟也比较大。一般，缓冲设置成能够容纳80毫秒的数据已经很可靠；甚至30-40毫秒也已经足够了。但是也不能太小，否则会影响到音频捕捉的效率，使音质受到损害。下面的代码设置音频捕捉的缓冲大小，可供参考：

pCapturePin->QueryInterface(IID_IAMBufferNegotiation, (void **)&pNeg);
// Set the buffer size based on selected settings
ALLOCATOR_PROPERTIES prop={0};
prop.cbBuffer = lBufferSize;
prop.cBuffers = 6;
prop.cbAlign = nBytesPerSample * nChannels;
hr = pNeg->SuggestAllocatorProperties(&prop);
pNeg->Release();

以上，我们讲述了音频捕捉程序的创建过程，以及一些捕捉参数的设置方法。相信大家对于如何写音频捕捉程序已经有了自己的认识。音频捕捉直接得到的是PCM数据，根据需要，我们还可以对其进行压缩，比如用Mp3格式（微软提供了一个免费的Mp3 Encoder）、AC3格式等等；压缩后数据量更少，可以符合很多场合的应用。

PS：对于格式，有一系列的选择，但是建议在11025HZ、16位、单通道；22050HZ、16位、单通道中选择。选择格式的时候，不要尝试使用立体声，立体声浪费处理时间，而且效果很难评估。同样也不要使用16位以外的采样精度，因为这会导致音质的大幅下降。对于采样频率来说，越高越好，但是也不要设置超过22050HZ，在这个采样频率下，也能表现出CD音质的水准而没有太多的损失。

// setup the WAVEFORMATEX structure
    WAVEFORMATEX wave_format;

    ZeroMemory(&wave_format, sizeof(WAVEFORMATEX));

    wave_format.wFormatTag      = WAVE_FORMAT_PCM;
    wave_format.nChannels       = 1;        // mono
    wave_format.nSamplesPerSec  = 11025;    
    wave_format.wBitsPerSample  = 16;
    wave_format.nBlockAlign     = (wave_format.wBitsPerSample / 8) * wave_format.nChannels;
    wave_format.nAvgBytesPerSec = wave_format.nSamplesPerSec * wave_format.nBlockAlign;

ucasliming

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
如何用DirectShow实现音频采集

现在的所谓多媒体电脑一般都会有声卡（软声卡或硬声卡），有声卡就能进行音频的捕捉。大家一定熟悉Windows自带的附件“录音机”程序，可以通过麦克风进行录音，最终生成一个Wave文件。大家知道，DirectShow对硬件的支持是通过特定的包装Filter来实现的。声卡使用的是Audio Capture Filter，Filter内部使用以waveIn开头的一套API实现（如waveInOpen等）。
复制链接

扫一扫