说明:本项目是上海科技创新大赛获奖项目(部分)
感谢:朱宋煜老师提供
意义:了解一种整体的项目设计样式。
版权:归原作者所有。
基于YOLO算法的
语音辅助盲人识物系统
上海复旦五浦汇实验学校 阮继盛
指导老师:朱宋煜
摘要: 我国有一千多万盲人, 他们受制于身体缺陷, 无法享有正常人般的生活。本课题提出一种基于yolo算法的语音辅助盲人识物系统, 通过盲人穿戴在手腕处的摄像头拍照, 结合深度卷积神经网络处理图像并分类, 识别出拍物体的名字, 将该名字发送给语音API, 生成一段语音, 最后将该语音通过耳机播放给盲人。系统采用可穿戴式设计, 具有智能化程度高, 使用简便, 重量轻, 体积小等优点。
关键字 : YOLO算法, 百度语音API, 盲人辅助
引言
本课题设计了一种应用人工智能图像处理技术和语音合成技术的计算机视觉辅助识别物体并通过语音合成对盲人传达的装置(下称盲人识物器)。其主要设计构思是:
1) 通过按键, 触发摄像头拍摄物体图片
2) 使用新型算法对所拍摄照片进行识别, 获得照片内主要物体的名字词条
3) 调用语音合成算法, 将该名字词条转化为语音
4) 通过耳机将该语音播放给使用者
5) 方便使用者便携使用
6) 单次充电可连续使用4个小时以上。
1. 整体设计
摄像头和按键的电线, 通过束线管捆绑在一起, 然后连接到在斜挎包的电脑内。最后通过一个普通耳机, 连接电脑, 并固定在耳朵上。系统电源由充电宝提供。系统网络由使用者的手机热点提供, 使用者需要打开wifi 或4G 网络, 然后打开热点, 并让树莓派连接到该热点, 以便使用语音生成算法。
2. 电路设计
2.1 微型电脑的选择
2.2 摄像头的选择
2.3 触发装置的选择
2.4 电路图
3.软件设计
3.1 YOLO算法介绍
其中YOLO(you only look once)算法是众多应用人工智能进行物体识别和分类的算法中, 效率和准确度较高的一项。它采用了单个卷积神经网络来预测多个感兴趣区域和类别概率。
3.2 百度语音API
3.4 YOLO算法的安装
YOLO是darknet 的一个子项目, 需要先安装darknet 安装方法如下:
git clone https://github。com/pjreddie/darknet cd darknet make |
然后下载yoloV3的预训练神经网络
wget https://pjreddie。com/media/files/yolov3。weights |
运行该算法自带的示例程序, 检查是否安装正确
。/darknet detect cfg/yolov3。cfg yolov3。weights data/dog。jpg |
如果运行正常, 对话框中会出现下面信息, 代表画面中发现了3个物体, 分别是狗, 可信度99%; 卡车, 可信度93%; 和自行车, 可信度99%,
6. 总结和展望
本课题完成了预期的相关内容, 实现了在较理想情况下的物体识别功能, 并能通过语音播放。但是本课题在设计制作过程中还是出现了一些不足, 包括:在较暗环境下, 摄像头无法清晰的捕捉图像; 依赖4G网络和网络热点, 在无网络位置无法工作; 使用英文语音, 对英文不熟练的使用者不友好。
根据在设计制作过程中发现的各种不足, 在之后的更深度的设计中会考虑:
1,通过使用更高级的算法,提高识别速度, 提高识别正确率。
2,增加辅助光源和环境光传感器,使其可以根据环境亮度, 自动开启补光灯, 实现在光线不足的环境下工作。
3,增加翻译功能,使其可以生成多国语言。
4, 采用本地语音生成算法和翻译词库, 实现离线运行。
代码局部欣赏: