目录
一、项目目标
项目名称:雅思ai口语老师
2023 年4月9日开始
项目目标:
让用户能够以更低的价格获得练习机会,用户可以通过智能设备随时进行学习,有很好的便利性。提供多种学习资源和功能,覆盖较广的雅思口语话题,帮助用户全面准备。有个性化的学习计划和建议。为用户提供更便捷、高效和个性化的口语培训服务。
二、成员分工
赵广耀:语音模块(语音转文本,文本转语音)-
李俊哲:后端数据库设计(用户表,交流记录表)
林哲煌: 前端交互(页面设计,语音输入)
陈彦宾:大模型模块(寻找雅思语料库,训练模型,调用接口)
三、实施方案
1. 用户登录与信息设置
前端开发团队:集成网页登录功能,使用网页用户信息进行简洁登录。设计并实现“我的”页面,包括头像、昵称等信息的显示与修改功能。
后端开发团队:设计并实现用户登录验证和用户信息存储功能。
2. 用户反馈与退出登录
前端开发团队:设计用户反馈页面,包括各类反馈信息的提交。在“我的”页面添加退出登录接口。
后端开发团队:实现用户反馈信息的存储和管理功能。
3. 主页面功能
前端开发团队:设计并实现主页面功能,交互接口,包括口语训练、语音转文字功能等。
4. 语音转文字功能
后端开发团队:实现语音转文字功能,并提供相应的API接口。
5. 交互功能
前端开发团队:设计并实现与AI老师进行对话的交互功能。
6. 语音测评功能的嵌入
前端开发团队:嵌入语音测评功能,对口语训练进行语音测评。
后端开发团队:实现语音测评分析功能,提供评分结果。
四、个人学习
在确定了我的工作为实现项目的语音模块,包括语音转文本,文本转语音后,我开始寻找相关资料,了解相关知识,资料包括但不限于
在阅读完上述资料后,我对于我这部分如何开展有了初步的认识,具体如下:
语音转文本 (STT)
Azure Speech to Text API:可以使用Azure的语音服务来实现STT。Azure提供了一个完整的API,可以快速实现语音到文本的转换。
自定义语音转文本实现:使用Flask框架的自定义语音转文本接口的实现。它使用Base64编码的音频文件,并将其转换为音频文件,然后使用语音识别服务进行转换。
文本转语音 (TTS)
Azure Text to Speech API:使用Azure的文本转语音服务。这包括获取订阅密钥、选择语音模型、使用SDK或API进行转换等步骤。
speak.js:一个前端JavaScript库,可以在浏览器中无需服务器支持直接将文本转换为语音。这个库轻量级、易于集成,并且支持多种语言。
FastAPI Text to Voice:使用FastAPI和pyttsx3
库创建一个简单的文本转语音接口。这个接口可以接收文本输入,然后转换成语音文件,并提供下载。
在对于如何实现有了初步的认识后,在后续上手实现时,只需要根据项目届时的具体需求,选择对应的实现方法即可。
五、个人体会
对于我们的项目来说,想要集成STT和TTS技术,首先需要保证有较高的准确率,确保用户使用时体验良好;其次,语音输出应该较为自然,使用户听到准确的发音。还应该提供实时的语音识别反馈,帮助学生对自己的情况有更好的了解。对于我们开发者来说,用户练习数据涉及用户的隐私,我们还需要注意用户的数据安全。同时,所选择的技术应该易于集成到网站上,并且对于用户友好。
语音转文本和文本转语音技术是相辅相成的。STT可以帮助人们更高效地从语音中提取信息,而TTS则使得信息的传递更加灵活和可访问。随着技术的不断进步,这两种技术在提升用户体验、促进信息无障碍传播等多方面将发挥越来越重要的作用。