山东大学软件学院创新项目实训开发日志——第十一周

目录

本周我所做的工作:

1.寻找人脸识别数据集,并对数据进行预处理。

2.构建人脸识别模型,并对模型进行微调。

3.利用训练好的模型参数进行人脸识别,实现会议签到功能。

进一步学习的知识:

1.语音转录模型

定义

基本组成

1. 预处理

2. 声学模型

3. 语言模型

4. 解码与后处理

主流模型架构

DeepSpeech

wav2vec 2.0

Whisper

Transformer 端到端模型

应用场景

挑战与发展趋势

主要挑战

未来趋势

2.如何强化大模型生成指定格式的文件

(一)、核心实现步骤

1. 定义文档规范

2. 构建结构化输入系统

3. 设计大模型提示词

4. 实现模板引擎

5. 集成大模型API

6. 增加验证层

(二)、进阶优化方案

1. 智能内容提取

2. 多格式输出支持

(三)、技术选型建议

(四)、实施路线及优化方向


本周我所做的工作:

1.寻找人脸识别数据集,并对数据进行预处理。

数据集格式如上,数据集由约三万张图片组成,主要为1040人的头部图像,每个子文件夹下的名称即为该人的编号。

按类别分为:

Accessory:佩戴各种帽子、眼镜、墨镜等装饰品的照片。

Aging:不同年龄的人物照片。

Background:不同人物背景下的图片。

Distance:不同拍摄距离下的图片。

Expression:不同人物表情下的图片。

Lighting:不同光线照射下的图片。

Normal:正常拍摄的图片。

Pose:不同拍摄角度的图片。

由于签到人脸识别功能需要适应多种情况,为了增强模型的鲁棒性和识别能力,我将以上所有任务的图片合并并重新划分数据集,以同时解决模型对穿戴饰品遮挡面部、不同背景色调、不同光线照射角度、不同拍摄角度、不同表情、不同拍摄距离等多种复杂情况下的人脸识别。

首先撰写代码将所有图片移至同一文件夹下:

其次将文件按照拍摄人的编号进行子文件夹划分

划分结果如下所示:

最后将每个拍摄人的图片按照8:2划分训练集与测试集


划分结果如下所示:

2.构建人脸识别模型,并对模型进行微调。

采用FaceNet,通过MTCNN和InceptionResNet构建人脸识别模型,并在vggface2的基础上进行微调。


改进设计:

①冻结部分模型架构,只更新剩余参数。
 

②添加新的分类头,自行设计classifier架构,使用batchnorm以及dropout技术。
 

③数据增强处理。

④灵活调整优化器,为不同参数设置不同的学习率。

⑤优化学习器,设置早停,梯度截断,梯度衰减等参数。

导入数据并进行训练:

训练结果:

准确率由最初的28.85%上升至95.61%,并在测试集中达到了97.32%的准确率!

3.利用训练好的模型参数进行人脸识别,实现会议签到功能。

构建MongoDB数据库,保存注册人的人脸特征识别数据

修改模型架构,通过模型返回输入图像的embedding,而不是类别,便于通过embedding的相似度匹配来从人脸注册库中识别对应name。

构造人脸注册与人脸识别方法:

在前端构建页面进行人脸注册与识别:

人脸注册功能:
 

人脸识别功能:
 

识别失败

识别成功

进一步学习的知识:

1.语音转录模型

语音转录模型(Speech Transcription Model)是一类能够将语音信号自动转换为文字的系统,也称为自动语音识别(ASR)或语音到文本(STT)系统​​。它融合了计算机科学、计算语言学和信号处理等多学科技术,可广泛应用于字幕生成、会议记录、语音助理和辅助听障人士等场景​。


定义

  • 语音转录模型旨在“听懂”人类的口语,并输出对应的文字表示,属于计算机科学与计算语言学的交叉领域​。

  • 在技术实现上,它通常包含音频预处理、声学模型、语言模型与解码后处理等关键模块​。


基本组成

1. 预处理

对输入的原始音频进行降噪、端点检测以及特征提取(如梅尔频谱图、MFCC等),为后续模型输入提供稳定、高信息量的特征表示​。

2. 声学模型

将音频特征映射到声学单元(音素、音标)或帧级别概率分布。传统方法多采用隐马尔可夫模型(HMM)结合高斯混合模型(GMM),而现代系统则普遍应用深度神经网络(DNN)、卷积网络或循环网络进行端到端建模​。

3. 语言模型

借助统计(如 n-gram)或神经网络(如基于 Transformer)方法,对词序列进行建模,以提高识别结果的流畅度和正确率​。

4. 解码与后处理

将声学模型和语言模型的输出结合,通过束搜索(Beam Search)等解码算法生成最终文本,并可进行标点符号插入、大小写恢复等后处理步骤​。


主流模型架构

DeepSpeech

Mozilla 开源的端到端实时离线语音转录引擎,基于百度 Deep Speech 研究,支持在从树莓派到 GPU 服务器的多种设备上运行​。

wav2vec 2.0

Meta AI 提出的自监督学习框架,通过对原始音频的遮掩和对比学习,显著减少对标注数据的依赖,并在多语言与多领域场景中取得优异性能​。

Whisper

OpenAI 发布的多任务、多语言自动语音识别系统,训练使用了 680,000 小时的多语种监督数据,对口音和噪声具有较强鲁棒性,并支持多语种翻译功能。

Transformer 端到端模型

采用 Transformer 架构的端到端 ASR,利用自注意力机制并行处理长序列,常与 CTC(连接时序分类)或注意力机制结合,兼具速度与精度优势​​。


应用场景

  • 媒体字幕与视频转写:自动为影视剧、新闻、纪录片等生成字幕,大幅提高制作效率​。

  • 会议记录与转写:在远程会议、法庭记录和访谈等场合,将口头发言实时转写为文字,方便归档与检索。

  • 语音助理与智能家居:为 Siri、Alexa、Google Assistant 等提供语音输入接口,使设备能准确执行用户指令​。

  • 辅助听障人士:利用实时转录工具(如 Google Live Transcribe、TranscribeGlass)帮助听障者更好地参与对话与社交场景​。

  • 医疗与法律转写:在医院或法院中,将医患对话、庭审过程自动转写成文本,提高记录效率和准确性​。


挑战与发展趋势

主要挑战
  • 噪声干扰:背景噪声、多路讲话和信号失真等因素会显著降低识别准确率。

  • 口音与方言:不同地域、不同个体的口音差异大,模型在泛化能力上仍存在瓶颈​。

  • 低资源语言:很多语言的数据稀缺,难以构建高质量的转录模型​。

未来趋势
  • 多模态融合:结合视觉唇动、手势等多模态信息,提升在嘈杂环境下的识别鲁棒性。

  • 自监督与少样本学习:以 wav2vec 2.0 为代表的自监督方法,降低对标注数据的依赖,使低资源语言得到快速支持​。

  • 模型自适应与在线学习:通过在线微调和用户反馈,持续优化模型性能,适应个体化发音和新环境​。

  • 端到端轻量化部署:面向移动端和嵌入式设备的模型压缩与加速,实现离线转录和隐私保护​。

2.如何强化大模型生成指定格式的文件

(一)、核心实现步骤

1. 定义文档规范
  • 模板示例

    # [会议主题] - YYYY/MM/DD
    
    ## 参会人员
    - 主持人:张三
    - 参与人:李四、王五、赵六
    
    ## 会议议程
    1. 议题一:项目进度汇报
    2. 议题二:风险讨论
    3. 议题三:下一步计划
    
    ## 讨论要点
    ### 议题一
    - 开发进度:已完成80%
    - 存在问题:测试环境不稳定
    
    ## 决策事项
    - 决议:增加测试服务器预算
    - 负责人:李四(2023/12/31前完成)
  • 格式要求

    • 层级标题使用Markdown语法

    • 时间自动填充当前日期

    • 责任人标注使用特定标识符

2. 构建结构化输入系统
  • 数据采集界面

    • 语音实时转写(集成ASR接口)

    • 手动补充关键信息输入框:

      <input type="text" placeholder="决策事项">
      <select id="priority">
        <option>普通</option>
        <option>重要</option>
      </select>
3. 设计大模型提示词
prompt_template = """
根据以下会议记录,生成符合公司标准的会议纪要:
记录内容:"{meeting_text}"

要求格式:
{format_example}

特别注意:
1. 使用二级标题"##"分隔主要议题
2. 决策事项需标注负责人和截止日期
3. 风险项用红色字体标记(HTML格式)
"""
4. 实现模板引擎
  • 动态渲染逻辑

5. 集成大模型API
6. 增加验证层
  • 格式检查


(二)、进阶优化方案

1. 智能内容提取
  • 使用NER(命名实体识别)自动识别:

    • 责任人(标注为<span class="responsible">

    • 时间节点(自动转换为标准日期格式)

    • 关键数据(用表格形式呈现)

2. 多格式输出支持

(三)、技术选型建议

组件推荐方案说明
语音识别Azure Cognitive Services支持实时流式识别
大模型平台OpenAI GPT-4或本地部署LLM如Llama2
文档渲染引擎Python-docx + Pandoc支持Markdown/Word/PDF转换
前端框架Vue3 + Element Plus提供丰富表单组件
存储系统MongoDB方便存储半结构化数据

(四)、实施路线及优化方向

  1. 基础版

    • 实现文本输入生成Markdown文档

    • 完成基础模板配置

  2. 增强版

    • 集成语音识别

    • 添加Word/PDF导出

    • 实现自动邮件发送

  3. 智能版

    • 部署本地化大模型

    • 增加内容审核功能

    • 实现多语言支持

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值