【corpus】QUT-NOISE-TIMIT Corpus

QUT-NOISE-TIMIT Corpus

最近复现论文的时候用到了这个数据集,做这个数据集的过程狠艰辛,数据集的论文中没有给出下载地址,网上也搜不到,我在 QUT 的学校官网里找出来的,结果官方提供的合成脚本还有错误…(太坑了!)

这个数据集是 QUT 自己录制的噪声集,然后混合了 TIMIT 的语音,整个数据集包括600小时的带噪语音。QUT-NOISE 噪声集包含10个场景录制的5种常见背景噪声,时长超过10个小时,详细信息可以查看论文。

数据集论文 :The QUT-NOISE-TIMIT Corpus for the Evaluation of Voice Activity Detection Algorithms


官方脚本出现的问题:

网上搜不到这个数据集的相关信息,我在 QUT 的学校官网找到了 QUT-NOISE 集和 MATLAB 的合成脚本,但是脚本有问题,addspeechtonoise.m文件里面有个拼接路径的地方写错了,多加了一个.,导致一直报文件打开无效的错误。

% addspeechtonoise.m  
% line 160
[data,fs,times,active] = ...
     getspeech([speechfolder '/' speechfile], ...
               [speechfolder './' labfile], ...
     	       wantedfs, imp, 'bounds
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
This corpus contains a selection from the TIMIT Acoustic-Phonetic Continuous Speech Corpus, consisting of speech files, annotations,and associated materials: * 16 speakers from 8 dialect regions * 1 male and 1 female from each dialect region * total 130 sentences (10 sentences per speaker; note that some sentences are shared among other speakers, sa1 and sa2 are spoken by all speakers.) * total 160 sentence recordings (10 recordings per speaker) * audio format: wav format, single channel, 16kHz sampling, 16 bit sample, PCM encoding 数据相关论文: 使用该数据的论文: 暂无信息 来自万方数据的相关论文: 期刊论文 基于学习者英语语料的类联接研究概念、方法及例析 - 外语电化教学 - 2009(3) 期刊论文 基于HTK的连续语音识别系统及其在TIMIT上的实验 - 现代计算机(专业版) - 2009(11) 会议论文 Iterative Language Model Adaptation for Large Vocabulary Continuous Speech Recognition - 2011 4th IEEE International Conference on Computer Science and Information Technology(ICCSIT 2011)(2011年第四届IEEE计算机科学与信息技术国际会议) - 2011 会议论文 The Fixed-Point Optimization of Mel Frequency Cepstrum Coefficients for Speech Recognition - The 6th International Forum on Strategic Technology(IFOST 2011)(第六届国际战略技术论坛) - 2011 会议论文 语音编码对说话人识别系统的影响 - 第二届和谐人机环境联合(第15届全国多媒体技术、第2届全国人机交互、第2届全国普适计算)学术会议 - 2006 期刊论文 车载环境下基于样本熵的语音端点检测方法 - 计算机研究与发展 - 2011, 48(3) 会议论文 A Corpus-based Comparative Study of Company Profiles --A Case Study Between World Top-500 and Zhejiang Top-100 - 2010 Summit International Marketing Science and Management Technology Conference(2010年国际营销科学与管理技术大会) - 2010 期刊论文 留学生汉语中介语语料库建设若干问题探讨——以中山大学汉字偏误中介语语料库为例 - 语言文字应用 - 2012(2) 会议论文 A NON-FIXED-LENGTH SEQUENCES CLUSTERING APPROACH FOR SPEECH CORPUS REDUCTION - 2007 International Conference on Machine Learning and Cybernetics(IEEE第六届机器学习与控制论国际会议) - 2007 期刊论文 联想学习记忆的脑功能磁共振成像 - 中华神经科杂志 - 2008, 41(4)
### 回答1: Sogou文本分类语料库小集(sogou-text-classification-corpus-mini.zip)是一个包含9304条文本的数据集,每个文本包含了文本内容、所属类别、分类标签和对应的关键词。该数据集可以用于文本分类的训练和测试,是自然语言处理领域的常用数据集之一。 该数据集按照新闻、娱乐和汽车三个分类进行标注,其中新闻类包含了6191篇文本,娱乐类包含了1809篇文本,汽车类包含了1304篇文本。每篇文本都对应一个分类标签,可以帮助研究人员进行文本分类算法的研究和比较。 同时,每篇文本都包含了关键词信息,这些关键词可以用于识别文本中的重要信息,帮助算法更好地理解文本内容。因此,该数据集在文本分类和文本语义理解的研究中非常有价值。 总之,Sogou文本分类语料库小集是一个非常有用的自然语言处理数据集,可以被广泛应用于文本分类和文本语义理解领域的研究和应用。 ### 回答2: sogou-text-classification-corpus-mini.zip 是一个文本分类数据集,包含了数千个中文新闻文本的标注。这个数据集整理自搜狗搜索引擎的新闻分类服务中收集的数据,可以用于研究文本分类算法的效果以及构建中文文本分类模型。 文本分类是自然语言处理中的一个重要任务,它是把一个文本分到预先定义好的若干个类别中的过程。文本分类广泛应用于舆情分析、信息过滤、垃圾邮件过滤、广告定向等领域。 sogou-text-classification-corpus-mini.zip 数据集包含5个分类标签,分别是“体育”、“娱乐”、“家居”、“房产”和“教育”。每个类别下面有约1000条新闻文章,每篇文章有其对应的标题以及正文内容。 使用这个数据集进行文本分类任务需要先将中文文本预处理成数字向量,然后使用机器学习或深度学习算法进行分类。常用的文本表示方法有词袋模型、TF-IDF等,机器学习算法包括朴素贝叶斯、支持向量机等,深度学习算法包括卷积神经网络、循环神经网络等。 总的来说,sogou-text-classification-corpus-mini.zip 是一个适合用于学习中文文本分类的数据集,可以帮助研究者和工程师更好地理解中文文本分类任务的本质和实现方式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值