机器学习基础-13: ML经典数据集

ML经典数据集

机器学习原理与实践(开源图书)-总目录,建议收藏,告别碎片阅读!

1 图像数据集

2 视频数据集

CDVL(TheConsumer Digital Video Library) 消费者数字视频库对外提供高质量的源视频序列,可供研究和开发免费使用。CDVL还托管了几个视频质量数据集,包括五个VQEG HD Phase I数据集,BVI-HD,CCRIQ,its4s和T1A1。

LIVE database 出自德克萨斯大学的图像&视频工程实验室。该实验室的视觉科学家和视频工程师对图片和视频质量进行大规模主观和客观研究,对相关数据库做了严格的视觉检测/筛选。该数据库包含15+细分的自数据库。该数据库还包含若干视频质量评估的背景知识。

IVC数据库包含图像质量评价和视频质量评价数据库。IVC数据库由法国南特大学(Université de Nantes)的南特通信与网络研究所主持构建和维护。南特通信与网络研究所在图像&视频质量评价、离散信息表示、人类世界感知、机器学习和模式识别、网络和系统等方面具有深刻而广泛的研究。

3 音频数据集

谷歌发布的大规模一品数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。类目被指定为事件类别的分层图,覆盖广泛的人类和动物声音,乐器和风格以及常见的日常环境声音。

2000 HUB5 English Evaluation Transcripts由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。

TED-LIUM是TED Talk的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库。

4 综合数据集

系列文章

参考文献

  • [1] 周志华. 机器学习. 清华大学出版社. 2016.
  • [2] [日]杉山将. 图解机器学习. 人民邮电出版社. 2015.
  • [3] 佩德罗·多明戈斯. 终极算法-机器学习和人工智能如何重塑世界. 中信出版社. 2018.
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
机器学习中的成员推理攻击指的是攻击者可以通过观察机器学习模型的输出,来推断训练数据中是否包含了特定的样本。这种攻击技术可以通过观察模型的输出统计信息,如分类概率或回归值,来判断模型对于某个特定样本的预测结果。成员推理攻击可能会对数据隐私造成威胁,尤其是当模型训练在敏感数据集上时。 针对成员推理攻击,也有一些防御方法可以采取。首先,可以对模型输出进行扰动处理,使得攻击者无法准确地推断出是否包含某个样本。这可以通过在模型输出中添加随机噪声或限制预测结果的精确度来实现。 其次,可以采用集成学习的方法,即使用多个模型进行预测,并对不同模型的输出进行统计,以减少攻击者的推断能力。通过使用不同的模型和数据划分,可以降低攻击者通过模型输出的统计信息来推测训练数据的可能性。 另外,数据隐私保护方法也可以用于防御成员推理攻击。例如,可以使用差分隐私技术,在训练数据中引入一定的随机噪声,以保护个体数据的隐私。这样可以防止攻击者通过观察模型的输出来进行有效的成员推理。 综上所述,成员推理攻击是机器学习中的一种隐私威胁,但通过添加扰动、集成学习和数据隐私保护等方法,我们可以减轻这种攻击带来的风险。然而,防御成员推理攻击仍然是一个开放的研究领域,需要进一步的研究和改进。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值