数据集收集库

一、自动驾驶领域数据集
1. KITTI数据集:https://gas.graviti.cn/dataset/data-decorators/KITTIObject
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是自动驾驶场景下的计算机视觉算法评测数据集。
该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),
3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。、
2. CityScapes数据集:https://gas.graviti.cn/dataset/graviti-open-dataset/CityScapes
3. BDD100K数据集:https://gas.graviti.cn/dataset/data-decorators/BDD100K
4.nuScenes数据集:https://gas.graviti.cn/dataset/motional/nuScenes
二、目标检测数据集
1. COCO数据集:https://gas.graviti.cn/dataset/shannont/COCO
2.PASCAL VOC数据集:https://gas.graviti.cn/dataset/data-decorators/VOC2012Detection
3. OpenImage数据集:https://gas.graviti.cn/dataset/shannont/OpenImages_v6
三、人脸识别类数据集
1. YouTube Face DB数据集:https://gas.graviti.cn/dataset/shannont/YouTubeFacesDB
2. CelebA数据集:https://gas.graviti.cn/dataset/shannont/CelebA
3. IMDB-WIKI数据集:https://gas.graviti.cn/dataset/hello-dataset/IMDbWiki
4. LFW数据集:https://gas.graviti.cn/dataset/graviti-open-dataset/LFW
四、人体姿态估计类数据集
1. LSP数据集:https://gas.graviti.cn/dataset/data-decorators/LeedsSportsPose
2. FLIC数据集:https://gas.graviti.cn/dataset/data-decorators/FLIC
3. MPII Human Pose数据集:https://gas.graviti.cn/dataset/shannont/MPIIHumanPose
五、文本检测类数据集
1. MNIST数据集:https://gas.graviti.cn/dataset/data-decorators/MNIST
2. SVHN数据集:https://gas.graviti.cn/dataset/data-decorators/SVHN
3. CCPD数据集:https://gas.graviti.cn/dataset/data-decorators/CCPD
六、NLP数据集
1. Common Voice数据集【ASR】:https://gas.graviti.cn/dataset/hello-dataset/CommonVoiceCN
2. LibriSpeechASR数据集【ASR】:https://gas.graviti.cn/dataset/hello-dataset/LibriSpeechASR
3.20NewsGroups数据集【文本分类】:https://gas.graviti.cn/dataset/data-decorators/Newsgroups20
4. Mandarin Chinese Scripted Speech Corpus 数据集【ASR】:https://gas.graviti.cn/dataset/magichub/MAGICDATAMandarinChineseReadSpeechCorpus_1
七、医学类数据集
1. COVID_CT数据集:https://gas.graviti.cn/dataset/data-decorators/COVID_CT
以上数据集均来源于格物钛公开数据集

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
收集和预处理文本数据集是开发智能模型的重要一步。下面是一些常用的方法技巧: 1. 数据收集:确定你的模型需要的文本类型,并选择合适的数据源进行收集。数据源可以包括已有的公开数据集、网页抓取、社交媒体数据、论坛帖子等。确保数据源的可靠性和合法性。 2. 数据清洗:对收集到的原始文本数据进行清洗,去除无关信息和噪声。常见的清洗操作包括去除HTML标签、URL链接、特殊字符、停用词等。可以使用Python的字符串处理和正则表达式来实现。 3. 文本分词:将文本数据分割成单词或者其他语义单位。分词可以使用现有的分词工具,如jieba中文分词器、NLTK英文分词器等。 4. 词干化和词形还原:将单词还原为其原始形式,以减少词汇的多样性。可以使用词干化(stemming)和词形还原(lemmatization)技术,如Porter算法和WordNet词形还原工具。 5. 构建词汇表:通过统计文本数据中的词频,构建一个词汇表。词汇表包含数据中出现的所有词汇,可以用于后续的编码和特征提取。 6. 数据向量化:将文本数据转换为数值形式,以便机器学习模型进行处理。常见的向量化方法包括词袋模型(Bag of Words)、TF-IDF表示、词嵌入(Word Embedding)等。 7. 数据划分:根据需求,将数据集划分为训练集、验证集和测试集。训练集用于模型的训练和参数调整,验证集用于模型的选择和调优,测试集用于最终评估模型的性能。 以上是一些常见的文本数据集收集和预处理的步骤和技巧。具体的操作和方法会根据你的任务和数据特点而有所不同。在实际操作中,你可能需要结合领域知识和实践经验来进行调整和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值