LEAF：一个联邦学习的基准数据集

最新推荐文章于 2025-05-01 01:54:10 发布

咸鱼菲菲

最新推荐文章于 2025-05-01 01:54:10 发布

阅读量3.7k

点赞数 1

文章标签：机器学习其他

本文链接：https://blog.csdn.net/watqw/article/details/124415422

版权

LEAF提供了几个联邦学习的数据集，及简单的联邦学习例子，使用的算法是联邦平均算法，其代码是用python写的，机器学习的框架是tensorflow，所以如果要跑上面的例子，注意需要安装的环境，里面有个requirements.txt列出了要下载的python包。其地址为

https://talwalkarlab.github.io/leaf/

目前有6个数据集，可以选择是否切分为独立同分布（iid）。
1、FEMNIST
一个图像分类的数据集，识别英文字母和数字。有3550个用户，总共805263个样本，平均每个用户226.83个样本。
2、Shakespeare
预测下一个字符的语言模型数据集，从莎士比亚的作品全集中采集而来。有1129个用户（一个用户是作品中的一个角色），总共422615个样本。
3、Twitter
在Twitter上采集的数据，用于情感分析。有660120个用户，共1600498个样本。
4、Celeba
是一个带有注释的人脸数据集，可用于图像分类任务的训练。有9343个用户，共200288个样本
5、Synthetic Dataset
分类的一个数据集，有1000个用户，共107553个样本
6、Reddit
语言模型的一个数据集，有1660820个用户，共56587343个样本，是一个大数据集。