重磅 | Tianchi发布完整开源数据集!

 Datawhale干货 

来源:Tianchi,方向:开源数据集

近期,Tianchi发布了一份非常全面的开源数据集。包含了计算机视觉,自然语言处理,金融,电商,医疗,工业,农业等数据集,非常适合学习和实践,Datawhale整理如下:

# 数据集开源地址
https://tianchi.aliyun.com/dataset

「电商」

淘宝直播商品识别数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=75730

阿里巴巴用户行为数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=81505

面向商品的视频描述生成数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=75986

电商服装产品视频标题数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=75173

速卖通搜索系统数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=74690

淘宝用户行为数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=72423

甜品店铺用户评分数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=4366

智能出行平台车辆订单数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=39384
「医疗」

脊椎疾病病理数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=79463

医学影像和标题的语篇照应数据集MedICaT

https://tianchi.aliyun.com/dataset/dataDetail?dataId=86602

息肉医学影像数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=84385

中风后病灶解剖追踪数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=82972

颅骨医学图像数据集用于监测颅内出血

https://tianchi.aliyun.com/dataset/dataDetail?dataId=82967

皮肤病图像数据集用于诊断黑素瘤

https://tianchi.aliyun.com/dataset/dataDetail?dataId=82823

COVID-19 mRNA疫苗数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=82790

OSIC肺部CT扫描影像数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=82703

自然神经影像数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=82631

医学影像数据集MedMNIST

https://tianchi.aliyun.com/dataset/dataDetail?dataId=82187

生物医学实体标准化数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=81720

生物医学概念标准化数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=81565

社交媒体医学实体链接语料数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=81554

PubMedQA生物医学研究问答数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=81523

中文BLUE数据集(生物医学文本挖掘语料库)

https://tianchi.aliyun.com/dataset/dataDetail?dataId=81513

中文医学知识图谱数据集CMeKG

https://tianchi.aliyun.com/dataset/dataDetail?dataId=81506

医学对话数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=79671

中文医学问答数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=79670

平安医学技术疾病问答迁移学习数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=79665

临床术语标准化数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=79664

医学实体识别和属性抽取EMR数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=79663

疫情相似句对诊断数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=76751

2019-nCoV新型冠状病毒基因测序数据

https://tianchi.aliyun.com/dataset/dataDetail?dataId=51202

2020新冠肺炎全国各省数据

https://tianchi.aliyun.com/dataset/dataDetail?dataId=78902
「IT通讯」

阿里巴巴快递送达检测系统Beacon数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=76359

大型硬盘故障预测数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=70251
「交通」

谷歌地标数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=86611
「自然语言处理」

语义分割数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=82714

谷歌MC4数据集(可翻译101种语言)

https://tianchi.aliyun.com/dataset/dataDetail?dataId=82412
「工业」

布匹瑕疵智能识别数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=79336
「农业」

遥感检测数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=74952
「科学」

太阳耀斑预测数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=74780

太阳黑子类型智能分类数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=74779
「计算机视觉」

视盲OCR图片文案顺序理解数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=72926
「家装」

家居成品房3D图像数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=65347
「公共」

2012美联邦总统选举数据

https://tianchi.aliyun.com/dataset/dataDetail?dataId=2581

共享单车租用数据

https://tianchi.aliyun.com/dataset/dataDetail?dataId=54174

教育系统学生分班预测

https://tianchi.aliyun.com/dataset/dataDetail?dataId=47307

员工离职预测数据

https://tianchi.aliyun.com/dataset/dataDetail?dataId=25860
「娱乐」

豆瓣电影评分数据

https://tianchi.aliyun.com/dataset/dataDetail?dataId=9603
「金融」

银行营销活动效果预测

https://tianchi.aliyun.com/dataset/dataDetail?dataId=45944

信贷用户逾期预测数据

https://tianchi.aliyun.com/dataset/dataDetail?dataId=29157

金融业股票数据

https://tianchi.aliyun.com/dataset/dataDetail?dataId=46522

二手车交易数据集

https://tianchi.aliyun.com/dataset/dataDetail?dataId=62977

天池智能制造质量预测数据集 背景描述 半导体产业是一个信息化程度高的产业。高度的信息化给数据分析创造了可能性。基于数据的分析可以帮助半导体产业更好的利用生产信息,提高产品质量。 现有的解决方案是,生产机器生产完成后,对产品质量做非全面的抽测,进行产品质量检核。这往往会出现以下状况,一是不能即时的知道质量的好坏,当发现质量不佳的产品时,要修正通常都为时以晚,二是在没有办法全面抽测的状况下,存在很大漏检的风险。 在机器学习,人工智能快速发展的今天,我们希望着由机器生产参数去预测产品的质量,来达到生产结果即时性以及全面性。更进一步的,可基于预先知道的结果,去做对应的决策及应变,对客户负责,也对制造生产更加敏感。 痛点与挑战: 1)TFT-LCD(薄膜晶体管液晶显示器)的生产过程较为复杂,包含几百道以上的工序。每道工序都有可能会对产品的品质产生影响,故算法模型需要考虑的过程变量较多。 2)另外,这些变量的取值可能会存在异常(如测点仪表的波动导致、设备工况漂移等现象),模型需要足够稳定性和鲁棒性。 3)产线每天加工的玻璃基板数以万计,模型需要在满足较高的精准度前提下尽可能实时得到预测结果,这样才能给在实际生产中进行使用。 价值: 1)如果能够建立算法模型准确预测出特性值,便可以实现生产过程的实时监控和预警,提前发现当前工序的问题、避免问题流入到后道工序,减少生产资源浪费的同时也优化了产品良率。 2)基于预测模型得到的关键参数,工艺人员能够快速地针对那些电性表现不佳的产品进行问题溯源分析,重点分析和调整那些关键的影响因子,加快不良问题的处理、提高整体工艺水平。 3)该预测模型在部署后也可以用于减少特性检测相关的工序,能够节约检测资源并且对提升产线整体的产能有正面作用。 数据说明 每条数据包含8029列字段。 第一个字段为ID号码,最后一列为要预测的值Y。其余的数据为用于预测Y的变量X。这些变量一共由多道工序组成,字段的名字可以区分不同的工序,例如 210X1, 210X2。300X1,300X2。字段中的TOOL_ID或者Tool为每道工序使用的机台,如果是string类型,需要选手自行进行数字化转换。注意: 数据中存在缺失值。 测试集分为A/B两份,相比训练集,最后一列的value值是缺失的,研究人员可以根据训练数据做模型训练,并对测试集做预测。为了方便研究人员评测算法效果,我们提供了测试集A的答案。 问题描述 本数据集提供了生产线上的抽样数据,反应机台的温度,气体,液体流量,功率,制成时间等因子。 通过这些因子,需要研究人员设计出模型,准确的预测与之相对应的特性数值。这是一个典型的回归预测问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值