前期准备
1、注册Bluemix账号
需要一个IBM的Bluemix账号,已有账号的可直接登陆,若无账号,点击注册进行注册。
注册时国家或地区默认的,否则可能会出错。
2、安装watson-developer-cloud
pip install --upgrade watson-developer-cloud
3、创建应用服务
- 登录Bluemix后,点击左上角目录栏,点击”服务“,然后点击”Watson“。则会看到一系列服务。如图所示:
- 点击Speech To Text
- 点击创建,则会创建一个相应的服务凭证
- 进入后,点击左边的服务凭证,则会看到创建的服务
- 点击查看凭证,则会显示服务的URL、用户名、密码,这些在调用相应API时会用到
Speech To Text API
1、基本概念
Speech to Text 服务可将人类的声音转化为书写的文字。凡需要在语音文字与其书写文字之间建立起桥梁的地方,包括通过语音控制嵌入式系统,生成会议和电话会议的抄本,以及听写电子邮件和注释时,都可以使用语音转文字服务。此服务简单易用,它使用机器智能将有关语法和语言结构的信息与音频信号合成知识相结合,从而生成更准确的抄本。
2、目前支持语言
英语(美国)、英语(英国)、日语、现代标准阿拉伯语(仅限宽带模型)、中文普通话、葡萄牙语(巴西)、西班牙语、法语(仅限宽带模型)
简单样例(Python实现)
1、models方法
检索可用于服务的所有型号的列表。 信息包括模型的名称和赫兹的最小采样率等等。
所有模型如下:
ar-AR_BroadbandModel
en-UK_BroadbandModel
en-UK_NarrowbandModel
en-US_BroadbandModel
en-US_NarrowbandModel
es-ES_BroadbandModel
es-ES_NarrowbandModel
fr-FR_BroadbandModel
ja-JP_BroadbandModel
ja-JP_NarrowbandModel
pt-BR_BroadbandModel
pt-BR_NarrowbandModel
zh-CN_BroadbandModel
zh-CN_NarrowbandModel
实现代码如下:
# encoding: UTF-8
import json
from os.path import join,dirname
from watson_developer_cloud import SpeechToTextV1
speech_to_text = SpeechToTextV1(
username='6da692a0-6e00-4caf-9e4d-038c4d519cd6',
password='6girOpb1GJPN',
x_watson_learning_opt_out=False
)
print (json.dumps(speech_to_text.models(),indent=2))
结果显示:
{
"models": [
{
"description": "French broadband model.",
"language": "fr-FR",
"url": "https://stream.watsonplatform.net/speech-to-text/api/v1/models/fr-FR_BroadbandModel",
"rate": 16000,
"supported_features": {
"custom_language_model": false,
"speaker_labels": false
},
"name": "fr-FR_BroadbandModel"
},
{
"description": "US English narrowband model.",
"language": "en-US",
"url": "https://stream.watsonplatform.net/speech-to-text/api/v1/models/en-US_NarrowbandModel",
"rate": 8000,
"supported_features": {
"custom_language_model": true,
"speaker_labels":