萤火虫pte小程序_PTE官方揭秘:口语音频如何匹配

 ✨ 萤火之光 · 点亮远方 ✨ 

45783ea2181b3e8db4a4a44dad134a18.png

hello 艾瑞巴蒂~

每周一期纯干货新栏目啦

【萤火虫教研会议报告】

本周又和大家见面啦

b4d71e5600575f6d9ece6b0a9d8f8cc2.png b4d71e5600575f6d9ece6b0a9d8f8cc2.png

栏目简介

每周四晚更新

  • 萤火虫PTE全体教研团队每周三教学例会

  • 每周【萤火虫教学研究会·会议报告】

  • 最细则的打分标准、最有效的得分技巧

  • 每周四晚更新持续为你带来PTE最前沿教研难题解答

话不多说,快跟小虫虫一起来看看

本期【教研报告】吧~

77bd1dedebb249bebcb0aa7b734b7589.png

本期会议参与老师

消消老师、Bella老师、Melody老师、Nancy老师、清清老师、佳卉老师、Cecilia老师、Mandy老师、美莹老师、Edie老师、珊珊老师、Caroline老师、Emma老师、Jack老师、乔乔老师、Victoria老师

本期会议答疑报告

官方口语音频匹配问题大揭秘

继续着上周的内容,我们参加的官方workshop大探底,继续和大家分享比较重要的口语识别、音频匹配、打分标准

同学们都知道,PTE口语的评分是拿我们的音频去跟机器库的音频进行比对,如果能够对比到90分数段的音频,那么我们的口语分数就是90分啦,如果比对到机器库里65分数段的音频,那我们的口语就是65分了。那么机器它没有耳朵,不会像人耳一样去听谁和谁的音频比较像,它到底是怎么进行音频match的呢?先看官方workshop为我们呈现的一张图:

bf06d9a9b4bca241d11ad7e5e85c08ca.png

这张图片同学们可能会觉得看的云里雾里,接下来我们就分别讲解一下PTE进行音频match时候的三个测评点:Waveform,Spectrum,Word Segmentation

首先,我们来看第一个横bar,Waveform,也就是我们常说的音波图。机器会把我们每个人的声音形成一个声波图,然后去跟机器库里的答案的声波图进行对比。在比对的时候,我们可以关注声波图的几个点。在说这几个点的时候想带着大家回到我们初中的物理课堂,听听我们的物理老师是怎么讲的:

物理老师曾经说,音波图主要看三点:

1.  频率:波峰相邻约紧密,声音越尖细(图A),反之越低沉(图B)。

0cbc5c77f0ddcdd35c54efe7ae4f6820.png

2.  振幅:音波的波动幅度越大声音的音量越大(图A),反之越小(图B)。

edbed4ac2b4d57f2ad9eb25107e433f8.png

3.   规律程度:音波的形状如果有规律,说明很可能是段动听的声音(图A),反之越是杂乱无章,越是噪音(图B)

f1bbd64591bebe6ba859e23d3ec33a0b.png

初中物理毕竟是涉猎比较浅,声波图传递给我们的信息肯定不止这些。但是在这里希望提醒同学们关注一下物理老师提到的前两点,也就是我们讲话的音调和音量。虽然之前官方跟我们讲过,学生的音色不会对学生的成绩有影响,但是同学们想一下,如果你的声音小到了Whisper的程度,正常人讲话随便都会比你的声音要大,那么也就意味着机器库里没有跟你一样形状的声波图,可能就是导致机器给你评10分了。或者之前萤火虫老师有遇到过一位男生,声音低沉到比double bass都低了,音频库里估计真的没有相似的选手,所以机器又配对不上了,发音就又不行了。

所以先从物理课的角度上总结一点,如果同学们的讲话音量和音调不是一个普罗大众的范围,那么考PTE还真是有点吃亏。这类同学希望多跟你们的老师交流,老师有很多针对不同类型同学调节音量或者音调的小技巧。我们实在解决不掉的,会建议有需要的同学去看一下声带医生,虽然这种情况很少,但是我们确实还是遇到过需要去看发声辅助医生的,医生的方法练习完之后确实就回到了大众范围的声音了,至少这样进行音频match的基础就有了。

回到PTE,除了音量,我们比较关注的有以下几个:

1.  每个波峰的相邻程度是紧密的还是松散的。在讲一段英语里,波峰基本上就是大家加重音的那个音节(也就是单词的重读音节),那么如果波峰之间距离过大就说明重读音节过于松散的话,速度慢了,且慢到单词的每个音节都有点被打散了,这个就是我们常说的慢速蹦字,对于流利度和发音都是一大忌,所以大家用老版的苹果手机系统可以看出这个点(新款的很难看出来波峰),从而检测发音是否紧凑。

2. 音波的body是否是有一定厚度的。如下图所示,除去音波图中的尖尖刺刺,深白色的部分也依然是很宽的,这就说明这位同学的讲话是有底气的,气息的厚度足,相应的就说明元音和辅音都是饱满的。如果你的音波是这样的,机器给你match上的一定是偏向一个native speaker的选手了。

044db62cee0c385631737cde1137d2e3.png

3.  是否有倒三角或者倒下的圣诞树形状出现。如下图所依,整体音波的形状很像倒下的圣诞树,大概就是每半秒钟就有几个高高的音柱出现,然后又紧接着马上缩短成很短的音柱,反反复复出现,就会造成我们的音波图不够Smooth,其实这种图形出现一般都是在卡顿,说一个音节然后就犹豫下一个音节,反复出现就是时高时低的音柱,也就是触犯了我们流利度smooth的这个要求了。一个native speaker是不会出现这种音波的,所以如果你的音波是这种形状,那可就偏离了正确的表现了。

02b6cd21b025204a4691a82e58c0cb02.png

其次我们来看第二个横bar,spectrum,也就是我们所说的声音光谱图。声音的光谱图主要是看声音的能量,能量足颜色就越深。比较高的能量意味着两点,一是发音的位置很靠后,很“欧美”,很有底气,不会有东方人很虚弱的感觉,这个做到了肯定更像native speaker;第二是能量越高肯定发音嘴形越到位,发音越饱满,越地道,自然也是直接跟高分段的音频匹配了。

第三个横bar是word segmentation,这个一个更加专业的测量图,关注的大家的整体口语速度和单词内部的节奏。如果同学们的速度过慢(一般native speaker对母语支配能力很好不会讲话超级慢),一秒所说出的音素或者音节甚至是单词不在一个正常的数值内,这个word segmentation的图就会match不上native speaker的图,于是就会拿个偏低的分数。或者有些同学的速度是正常的,但是单词内部的节奏“哒哒哒”很匀速,没有把重读音节带长一点,跟native speaker讲话的节奏感不同,那么也还是一样match不到高分的音频。

看完了今天的教研报告,大家有没有注意到机器还是测评很全面的,平时老师跟大家讲的声音要有力气啊,嘴巴讲话要张开呀,这些其实都是能够帮助大家更好的跟native speaker的音频相匹配的。

但是同学们不要死较真儿,想说找个什么软件给自己的RA也测出了这些图,这个是没必要的。老师自己私下转换过光谱图,出图的时间能考一场PTE了。所以大家只需要结合今天讲的几个测评要点和自己口语的表现,看看哪里还有不足,赶紧找出来一篇RA读一读修正一下自己的错误表现,摸清了PTE的真脾气,我们就能加快进步的步伐啦~

重磅:从本期的教研报告开始,我们会在文末留出一个供大家讨论的没有固定答案的开放性问题,欢迎同学们踊跃留言,互相安利一些有效的PTE学习方法和技巧:

本期话题

最近老师们收到了很多同学反映的考前极度焦虑的问题,考试的时候也是心态难平,大家都没有调节考试焦虑的好方法,来留言分享一下吧!

13496810583064b7f56b0dd49a690c6e.png

看完老师们的分析报告

是不是对PTE的了解又更进一步

觉得恍然大明白呢~

每周四晚持续更新哦➕

特别提醒:各位同学有想要知道的问题也可以后台留言,小虫虫会搜集大家关心的问题,由老师们尽快为大家带来解答的~

想了解更多萤火虫课程&干货

赶快扫码咨询小助手啦?

7b960d37f1461dadd05838b64e511803.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1 目标检测的定义 目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。 目标检测任务可分为两个关键的子任务,目标定位和目标分类。首先检测图像中目标的位置(目标定位),然后给出每个目标的具体类别(目标分类)。输出结果是一个边界框(称为Bounding-box,一般形式为(x1,y1,x2,y2),表示框的左上角坐标和右下角坐标),一个置信度分数(Confidence Score),表示边界框中是否包含检测对象的概率和各个类别的概率(首先得到类别概率,经过Softmax可得到类别标签)。 1.1 Two stage方法 目前主流的基于深度学习的目标检测算法主要分为两类:Two stage和One stage。Two stage方法将目标检测过程分为两个阶段。第一个阶段是 Region Proposal 生成阶段,主要用于生成潜在的目标候选框(Bounding-box proposals)。这个阶段通常使用卷积神经网络(CNN)从输入图像中提取特征,然后通过一些技巧(如选择性搜索)来生成候选框。第二个阶段是分类和位置精修阶段,将第一个阶段生成的候选框输入到另一个 CNN 中进行分类,并根据分类结果对候选框的位置进行微调。Two stage 方法的优点是准确度较高,缺点是速度相对较慢。 常见Tow stage目标检测算法有:R-CNN系列、SPPNet等。 1.2 One stage方法 One stage方法直接利用模型提取特征值,并利用这些特征值进行目标的分类和定位,不需要生成Region Proposal。这种方法的优点是速度快,因为省略了Region Proposal生成的过程。One stage方法的缺点是准确度相对较低,因为它没有对潜在的目标进行预先筛选。 常见的One stage目标检测算法有:YOLO系列、SSD系列和RetinaNet等。 2 常见名词解释 2.1 NMS(Non-Maximum Suppression) 目标检测模型一般会给出目标的多个预测边界框,对成百上千的预测边界框都进行调整肯定是不可行的,需要对这些结果先进行一个大体的挑选。NMS称为非极大值抑制,作用是从众多预测边界框中挑选出最具代表性的结果,这样可以加快算法效率,其主要流程如下: 设定一个置信度分数阈值,将置信度分数小于阈值的直接过滤掉 将剩下框的置信度分数从大到小排序,选中值最大的框 遍历其余的框,如果和当前框的重叠面积(IOU)大于设定的阈值(一般为0.7),就将框删除(超过设定阈值,认为两个框的里面的物体属于同一个类别) 从未处理的框中继续选一个置信度分数最大的,重复上述过程,直至所有框处理完毕 2.2 IoU(Intersection over Union) 定义了两个边界框的重叠度,当预测边界框和真实边界框差异很小时,或重叠度很大时,表示模型产生的预测边界框很准确。边界框A、B的IOU计算公式为: 2.3 mAP(mean Average Precision) mAP即均值平均精度,是评估目标检测模型效果的最重要指标,这个值介于0到1之间,且越大越好。mAP是AP(Average Precision)的平均值,那么首先需要了解AP的概念。想要了解AP的概念,还要首先了解目标检测中Precision和Recall的概念。 首先我们设置置信度阈值(Confidence Threshold)和IoU阈值(一般设置为0.5,也会衡量0.75以及0.9的mAP值): 当一个预测边界框被认为是True Positive(TP)时,需要同时满足下面三个条件: Confidence Score > Confidence Threshold 预测类别匹配真实值(Ground truth)的类别 预测边界框的IoU大于设定的IoU阈值 不满足条件2或条件3,则认为是False Positive(FP)。当对应同一个真值有多个预测结果时,只有最高置信度分数的预测结果被认为是True Positive,其余被认为是False Positive。 Precision和Recall的概念如下图所示: Precision表示TP与预测边界框数量的比值 Recall表示TP与真实边界框数量的比值 改变不同的置信度阈值,可以获得多组Precision和Recall,Recall放X轴,Precision放Y轴,可以画出一个Precision-Recall曲线,简称P-R
图像识别技术在病虫害检测中的应用是一个快速发展的领域,它结合了计算机视觉和机器学习算法来自动识别和分类植物上的病虫害。以下是这一技术的一些关键步骤和组成部分: 1. **数据收集**:首先需要收集大量的植物图像数据,这些数据包括健康植物的图像以及受不同病虫害影响的植物图像。 2. **图像预处理**:对收集到的图像进行处理,以提高后续分析的准确性。这可能包括调整亮度、对比度、去噪、裁剪、缩放等。 3. **特征提取**:从图像中提取有助于识别病虫害的特征。这些特征可能包括颜色、纹理、形状、边缘等。 4. **模型训练**:使用机器学习算法(如支持向量机、随机森林、卷积神经网络等)来训练模型。训练过程中,算法会学习如何根据提取的特征来识别不同的病虫害。 5. **模型验证和测试**:在独立的测试集上验证模型的性能,以确保其准确性和泛化能力。 6. **部署和应用**:将训练好的模型部署到实际的病虫害检测系统中,可以是移动应用、网页服务或集成到智能农业设备中。 7. **实时监测**:在实际应用中,系统可以实时接收植物图像,并快速给出病虫害的检测结果。 8. **持续学习**:随着时间的推移,系统可以不断学习新的病虫害样本,以提高其识别能力。 9. **用户界面**:为了方便用户使用,通常会有一个用户友好的界面,显示检测结果,并提供进一步的指导或建议。 这项技术的优势在于它可以快速、准确地识别出病虫害,甚至在早期阶段就能发现问题,从而及时采取措施。此外,它还可以减少对化学农药的依赖,支持可持续农业发展。随着技术的不断进步,图像识别在病虫害检测中的应用将越来越广泛。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值