把最近的调研demo整理出来,实现智能电话会议,我提供两个核心的web服务,一个是人脸识别实现身份确认,一个是语音识别实现会议内容实时转写。
预备知识
一、实现流程
二、身份确认-人脸识别
技术框架
- 这是一个轻量级的人脸识别服务
- 上传一张照片,它会返回照片的身份信息
实现过程
本地存储了用户的身份信息:
name = ['obama', 'huge', 'taorui']
对应照片:
obama
huge
taorui
我们通过照相机获得参会者的照片:
上传服务器:curl -F "file=@taorui2.jpg" http://127.0.0.1:5001
服务器返回参会者的身份信息:
上传参会者照片到服务器:
返回参会者身份信息:
使用方法
在终端访问服务
$ curl -F “file=@taorui.jpg” http://127.0.0.1:5001
结果会以Json的形式展现,例如:
Returns:
{
“face_ID”: 0,
“f:ace_name”: “taorui”
}
NOTE: 这个服务需要python3.6的环境
先安装flask! 安装命令如下:
$ pip3 install flask
三、 语音转写-语音识别
技术框架
- 将整段语音转换成文字
- 输入pcm音频
- 输出识别后的文字
实现过程
将音频文件上传到服务器进行读取:
音频内容为:北京科技馆
#识别本地文件
pp = client.asr(get_file_content('audio\\16k.pcm'), 'pcm', 16000, {
'lan': 'zh',
})
返回结果:
使用方法
要求python3.6环境
安装如下第三方库
pip install baidu-aip
python setup.py install