基于讯飞语音，百度语音，图灵机器人树莓派的智能语音机器人毕业设计第四天

最新推荐文章于 2022-07-13 14:58:32 发布

张飞online

最新推荐文章于 2022-07-13 14:58:32 发布

阅读量8.4k

点赞数 2

分类专栏：语音识别语音机器人文章标签： python 智能语音讯飞语音识别百度语音识别图灵机器人

本文链接：https://blog.csdn.net/u013372900/article/details/72785306

版权

语音识别同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

语音机器人

4 篇文章 4 订阅

订阅专栏

今天我们要调试python

1：首先我们还是要导入一些包：

sudo apt-get install swig3.0 python-pyaudio python3-pyaudio sox

sudo apt-get install libatlas-base-dev

2：还有个特别重要的事情没有做，那就是我们没有修改声卡：我们多一天用arecord录音用插件方式指定了录音声卡是1:0，现在我们用pyaudio来录音就没那么容易指定了，需要我们修改默认的声卡：
这里我们简单的介绍下 linux ALSA下的声卡的相关的情况：

ALSA的配置文件对于ALSA非常重要。常见的有三个：alsa.conf, asoundrc, asound.conf。

核心配置文件
ALSA核心配置文件位于/usr/share/alsa/目录下，主要配置文件为/usr/share/alsa/alsa.conf 。其它文件是否需要，位置在哪，都是由alsa.conf来决定的。通常会有/usr/share/alsa/card 和/usr/share/alsa/pcm两个子目录，用于设置Card相关的参数，别名以及一些PCM默认设置。
此外，在alsa.conf中，通常还会引用 /etc/asound.conf 和 ~/.asoundrc这两个配置文件，这两个文件通常是放置个人需要特殊设置的相关参数。按照Alsa官方文档的说法，1.0.9版本以后，这两个文件就不再是必要的，甚至是不应该需要的。至少是不推荐使用。不过，在嵌入式系统中使用，为了简单和方便测试，恰恰是需要修改这两个文件。
alsa.conf
alsa.conf中主要的一些内容包括：
1) 用hook读取了/etc/asound.conf 和 ~/.asoundrc这两个配置文件：


@hooks [                                          
        {                                               
                func load                           
                files [                                        
                        "/etc/asound.conf"    
                        "~/.asoundrc"       
                ]                       
                errors false                      
        }                                            
]

2) 设置了default pcm的一些默认参数，如，默认使用Card 0 ，Device 0作为音频设备等等

defaults.ctl.card 0 defaults.pcm.card 0 defaults.pcm.device 0 defaults.pcm.subdevice -1 defaults.pcm.nonblock 1 defaults.pcm.ipc_key 5678293 。。。

3) 设置了Alsa 内置的一些plugin的接口参数，例如file：

pcm.file {
        @args [ FILE FORMAT ]
        @args.FILE {
                type string
        }
        @args.FORMAT {
                type string
                default raw
        }
        type file
        slave.pcm null
        file $FILE
        format $FORMAT
}

 ```
> File plugin的作用是将PCM数据流存储到文件中。

> 3.asoundrc和asound.conf
    按照ALSA官方说法，asoundrc是针对个人用户的配置文件，asound.conf是全局的配置文件。其中，asoundrc位于主目录下，是个隐藏文件：“.asoundrc”。asound.conf位于/etc目录下。对于最新版本的ALSA库来说，这两个文件已不再需要。但是对于一些特定应用来说，他们的使用恰到好处。典型的asoundrc文件如下：


>  4.ALSA配置状态保存，恢复和自动加载
    实际使用过程中，常常需要动态修改声卡的配置信息，如更新asoundrc中的Mixer信息。如果不对当前声卡的配置状态进行保存，下次启动系统时，将还原到原始状态。为此，我们有必要对声卡的配置状态进行保存。声卡配置状态保存工具为：alsactl，具体保存命令为：
alsactl store -f /var/lib/alsa/asound.state
这样就在/var/lib/alsa/目录下生成了asound.state文件，该文件保存了声卡的状态配置信息，包括常用的mixer配置信息。相应的声卡状态恢复命令为：
alsactl restore -f /var/lib/alsa/asound.state
注：在每次修改完声卡配置文件之后，必须要保证配置文件被系统加载，否则在保存声卡配置状态信息时，alsactl读取的是上次声卡的状态。常用的加载配置文件的方法是播放一个音频文件，例如：
speaker-test -twav
这样就可以将刚刚修改的配置文件加载到系统中，然后执行相应的保存命令，即可将相应的声卡状态信息保存到文件中。得到了声卡的配置状态信息仍不能保证系统启动时自动加载并应用状态信息。需要修改启动配置文件，加入ALSA Daemon。启动配置文件为：/etc/rc.conf，在包含DAEMONS的一行内加入alsa项目。这样，系统启动时会自动执行/etc/rc.d/alsa脚本，该脚本会自动执行前面所说的声卡状态恢复命令，恢复Mixer配置信息。

当然看了上面的资料我们就要配置我们自己的声卡了，首先来说：我们需要清楚我们自己有那些声卡：

 aplay -l

上面列出的是播放设备 card 0、 device 0 或hw:0，0 （hw:0，1是 HDMI 音频输出）。

下面我们列出我们的录音设备︰

arecord -l

在这里录制设备处于卡 1，设备 0 或hw1:0.

然后我们修改我们的配置文件~/.asoundrc文件︰

pcm.!default {
  type asym
   playback.pcm {
     type plug
     slave.pcm "hw:0,0"
   }
   capture.pcm {
     type plug
     slave.pcm "hw:1,0"
   }
}

然后运行rec就可以默认设备录音：

rec 1.wav

我们的核心代码来了：注意哦，看到python这堆环境搭建，我是醉了，我们最近更新了c代码，当前的python代码是百度语音。c代码是讯飞语音+百度语音+图灵识别效果更好！

c代码更新的地址：
https://github.com/1158114251/-Intelligent-speech-robot
视频地址：
https://www.bilibili.com/video/av11369631/

# -*- coding: utf-8 -*-
# 树莓派
from pyaudio import PyAudio, paInt16
import numpy as np
from datetime import datetime
import wave
import time
import urllib, urllib2, pycurl
import base64
import json
import os
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
#一些全局变量
save_count = 0
save_buffer = []
t = 0
sum = 0
time_flag = 0
flag_num = 0
filename = ''
duihua = '1'
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
def get_token():
    apiKey = "AxXDYEN27Ks9XHocsGmCEdPm"
    secretKey = "61cd52759f4d704d91c155a22ff7183d"
    auth_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=" + apiKey + "&client_secret=" + secretKey;
    res = urllib2.urlopen(auth_url)
    json_data = res.read()
    return json.loads(json_data)['access_token']
def dump_res(buf):#输出百度语音识别的结果
    global duihua
    print "字符串类型"
    print (buf)
    a = eval(buf)
    print type(a)
    if a['err_msg']=='success.':
        #print a['result'][0]#终于搞定了，在这里可以输出，返回的语句
        duihua = a['result'][0]
        print duihua
def use_cloud(token):#进行合成
    fp = wave.open(filename, 'rb')
    nf = fp.getnframes()
    f_len = nf * 2
    audio_data = fp.readframes(nf)
    cuid = "9120612" #产品id
    srv_url = 'http://vop.baidu.com/server_api' + '?cuid=' + cuid + '&token=' + token
    http_header = [
        'Content-Type: audio/pcm; rate=8000',
        'Content-Length: %d' % f_len
    ]
    c = pycurl.Curl()
    c.setopt(pycurl.URL, str(srv_url)) #curl doesn't support unicode
    #c.setopt(c.RETURNTRANSFER, 1)
    c.setopt(c.HTTPHEADER, http_header)   #must be list, not dict
    c.setopt(c.POST, 1)
    c.setopt(c.CONNECTTIMEOUT, 30)
    c.setopt(c.TIMEOUT, 30)
    c.setopt(c.WRITEFUNCTION, dump_res)
    c.setopt(c.POSTFIELDS, audio_data)
    c.setopt(c.POSTFIELDSIZE, f_len)
    c.perform() #pycurl.perform() has no return val
# 将data中的数据保存到名为filename的WAV文件中
def save_wave_file(filename, data):
    wf = wave.open(filename, 'wb')
    wf.setnchannels(1)
    wf.setsampwidth(2)
    wf.setframerate(SAMPLING_RATE)
    wf.writeframes("".join(data))
    wf.close()
NUM_SAMPLES = 2000       # pyAudio内部缓存的块的大小
SAMPLING_RATE = 8000    # 取样频率
LEVEL = 1500            # 声音保存的阈值
COUNT_NUM = 20          # NUM_SAMPLES个取样之内出现COUNT_NUM个大于LEVEL的取样则记录声音
SAVE_LENGTH = 8         # 声音记录的最小长度：SAVE_LENGTH * NUM_SAMPLES 个取样
exception_on_overflow=False
# 开启声音输入ｐｙａｕｄｉｏ对象
pa = PyAudio()
stream = pa.open(format=paInt16, channels=1, rate=SAMPLING_RATE, input=True,
                frames_per_buffer=NUM_SAMPLES)
token = get_token()#获取ｔｏｋｅｎ
key = '35ff2856b55e4a7f9eeb86e3437e23fe'
api = 'http://www.tuling123.com/openapi/api?key=' + key + '&info='
while(True):
    # 读入NUM_SAMPLES个取样
    string_audio_data = stream.read(NUM_SAMPLES,False);
    # 将读入的数据转换为数组
    audio_data = np.fromstring(string_audio_data, dtype=np.short)
    # 计算大于LEVEL的取样的个数
    large_sample_count = np.sum( audio_data > LEVEL )
    temp = np.max(audio_data)
    if temp > 2000 and t == 0:
        t = 1#开启录音
        print "检测到信号，开始录音,计时五秒"
        begin = time.time()
        print temp
    if t:
        print np.max(audio_data)
        if np.max(audio_data)<1000:
            sum += 1
            print sum
        end = time.time()
        if end-begin>5:
            time_flag = 1
            print "五秒到了，准备结束"
        # 如果个数大于COUNT_NUM，则至少保存SAVE_LENGTH个块
        if large_sample_count > COUNT_NUM:
            save_count = SAVE_LENGTH
        else:
            save_count -= 1
        if save_count < 0:
            save_count = 0
        if save_count > 0:
            # 将要保存的数据存放到save_buffer中
            save_buffer.append(string_audio_data )
        else:
            # 将save_buffer中的数据写入WAV文件，WAV文件的文件名是保存的时刻
            #if  time_flag:
            if len(save_buffer) > 0  or time_flag:
                #filename = datetime.now().strftime("%Y-%m-%d_%H_%M_%S") + ".wav"#原本是用时间做名字
                filename = str(flag_num)+".wav"
                flag_num += 1
                save_wave_file(filename, save_buffer)
                save_buffer = []
                t = 0
                sum =0
                time_flag = 0
                print filename, "保存成功正在进行语音识别"
                use_cloud(token)
                print duihua
                info = duihua
                duihua = ""
                request = api + info
                response = getHtml(request)
                dic_json = json.loads(response)
                #print '机器人: '.decode('utf-8') + dic_json['text']#这里麻烦的是字符编码
                #huida = ' '.decode('utf-8') + dic_json['text']
                a = dic_json['text']
                print type(a)
                unicodestring = a
                # 将Unicode转化为普通Python字符串："encode"
                utf8string = unicodestring.encode("utf-8")
                print type(utf8string)
                print str(a)
                url = "http://tsn.baidu.com/text2audio?tex="+dic_json['text']+"&lan=zh&per=0&pit=1&spd=7&cuid=7519663&ctp=1&tok=25.41bf315625c68b3e947c49b90788532d.315360000.1798261651.282335-9120612"
                os.system('mpg123 "%s"'%(url))