DICI数字中国创新大赛数据集

最新推荐文章于 2024-09-09 00:44:48 发布

oubahe2024

最新推荐文章于 2024-09-09 00:44:48 发布

阅读量1.3k

点赞数 21

文章标签：人工智能大数据数据挖掘回归 ocr 深度学习能源

本文链接：https://blog.csdn.net/2301_80430808/article/details/136595872

版权

需要的同学私信联系，推荐关注上面图片右下角的订阅号平台自取下载。

数字中国创新大赛遵循开放合作办赛、高规格机构执行、贴近产业应用、多赛道并行的原则，已设置12个赛道，包含数据要素、智能科技、人工智能、数字城市、数字智造、数字视听、数字文旅、数字金融、信创、数字安全、数字人才、青少年AI机器人赛道，多角度展现数字中国建设创新成果，下面是我们收集并整理的6+细分赛题数据集，部分数据集还包含对应的参考方案源码。来吧，涨涨姿势~

1. 海上风电出力预测数据集

2. 肝病AI助手语料数据集

3. 早高峰共享单车轨迹数据集

4. 交易验证码识别数据集

5. 金融科技欺诈风险识别数据集

6. 虚拟货币挖矿行为识别数据集

—

海上风电出力预测数据集

【赛题背景】2024数字中国创新大赛—数据要素赛道。2023年12月1日，我国首个国家级海上风电研究与试验检测基地在福建开工建设，海上风电是实现能源低碳转型的重要战略支撑，大规模海上风力发电已成为国家能源战略发展的重要方向。

【应用领域】AI+海上风电出力预测

【数据任务】基于风力海况气象数据、风机性能数据等，针对复杂多变气象和海况条件的深度耦合影响，建立海上风电出力预测模型，提升模型精度以及在工程应用中的可信度，为大规模风电接入的能源安全可靠运行提供保障。

【文件目录】包含以下所示的数据文件：

A_submit_example.csv

A榜-测试集_海上风电预测_基本信息.csv

A榜-测试集_海上风电预测_气象变量数据.csv

A榜-训练集_海上风电预测_基本信息.csv

A榜-训练集_海上风电预测_气象变量及实际功率数据.csv

海上风电出力预测_lgb_baseline.py

【数据描述】海上风电出力预测的用电数据分为训练组和测试组两大类，主要包括风电场基本信息、气象变量数据和实际功率数据三个部分。风电场基本信息主要是各风电场的装机容量等信息；气象变量数据是从2022年1月到2024年1月份，各风电场每间隔15分钟的气象数据；实际功率数据是各风电场每间隔15分钟的发电出力数据。数据集文件的格式为csv格式。A榜包括2个训练集和2个测试集数据。

1. 基本信息：存储的是五个风电场的位置和装机容量等信息，包括：

2. 气象变量数据：存储的是五个风电场从2022年1月到2024年1月份，每间隔15分钟的气象数据，包括：

3. 实际功率数据：存储的是5个各风电场从2022年1月到2024年1月份，每间隔15分钟的发电出力数据，包括：

【预测结果说明】

提交文件格式为csv文件，编码采用utf-8，文件名为xxx.csv。格式与训练文件相同，需补充每条数据query_set字段中的label字段值。采用均方根误差（Root Mean Square Error，简称RMSE）对模型预测精度进行评价。

—

肝病AI助手语料数据集

【赛题背景】2024数字中国创新大赛—数据要素赛道。在过去，大数据及临床辅助决策系统（cdss）的创新已经显著降低医生和护士的简单重复劳动，但由于缺乏覆盖医疗服务关键场景的用户交互媒介，无法解决患者对于医疗问题沟通交互的迫切需要，从而无法打通医患沟通场景。现今，大模型对用户需求的“高理解性”、大数据的“高信息量”、cdss系统的“高准确性”相结合，将创造革命性的医患沟通交互媒介。该媒介将同时满足医患矛盾的两大必要条件，将解决医患关系矛盾、释放优质医疗供给、开创医患关系新格局。

【应用领域】大模型+肝病AI助手

【数据任务】研发能够减少医生和护士简单重复劳动、提高医疗服务效率的AI助手。该AI助手能够在阅读病人的个体化病历数据后，用于回答该病人在关键医疗场景中提出的关键问题。

【文件目录】包含以下所示的数据文件：

/训练数据集

- A-数据集

- B-知识集

- C-问题集

- D-答案集

/初赛评测数据集

- E-数据

- F-问题

【数据描述】语料数据集由训练数据集、评测数据集和知识集组成。

1. 训练数据集：由病历数据、问题和标准答案构成。病历数据由120份模拟真实场景的肝癌病人的病历数据通过脱敏脱密和必要的数据安全处理机制处理后生成。每份病历数据属于4个医疗场景中的1个（医疗场景为：①入院首次②检查完毕后首次治疗前 ③首次治疗后出院前；④出院时）。每份病历数据的字数在2000个汉字以内，使用标准的txt格式。每份病历数据有对应的问题（病人在该应用场景最常问的15个问题）和对问题的标准答案（由评审专家共同评审后得出）。

训练数据集文件为txt格式，文件名为A0001-A0120，文件中为病历数据，字数小于等于2000个汉字。

训练知识集文件为word格式，文件名为B0001-B0100，内容为肝病医学知识，字数没有限制。

训练问题集为txt格式，文件名为C0001-C0120，文件内容为15个问题，每个问题序号从01-15，问题最后有该问题的系数（为1-10中的一个整数）。

训练答案集为txt格式，文件名为D0001-D0120，内容是答案。

每一份训练数据对应一份问题和一份答案，例如A0001数据对应C0001问题对应D0001答案。

2. 评测数据集：由初赛评测数据集（60份病历数据）和决赛评测数据集（60份病历数据）组成，每份病历数据属于4个医疗场景中的1个（医疗场景为：①入院首次②检查完毕后首次治疗前 ③首次治疗后出院前；④出院时）。每份病历数据的字数在2000个汉字以内，使用标准的txt格式。每份病历数据有对应的问题（病人在最常问的15个问题），但没有答案；

评测数据集为E0001-E0060，评测问题集为F0001-F0060。

3. 知识集：包括肝病和肝癌的权威知识，覆盖外科，内科、护理、影像、病理等多个医疗部门；

4. 基座大模型：训练的基座大模型考虑到医院真实环境中算力基础设施的局限性和安全合规要求，采用清华的ChatGLM2-6B开源大模型。

—

早高峰共享单车轨迹数据集

【赛题背景】2021数字中国创新大赛—算法分析题。随着共享经济模式被越来越多市民接受，成为出行习惯，潮汐现象也随之出现。白天工作、晚上休息的人类活动规律的客观存在，加之上下班时间段的集中，导致早晚高峰“一车难寻”、“无地可停”的供需矛盾。希望通过对车辆数据的综合分析，对厦门岛内早高峰阶段潮汐点进行有效定位，进一步设计高峰期群智优化方案，缓解潮汐点供需问题，以期为城市管理部门和共享单车运营方研究制定下一步优化措施提供数据支撑。

【应用领域】AI+早高峰共享单车潮汐优化

【数据任务】任务一：为更好地掌握早高峰潮汐现象的变化规律与趋势，需基于主办方提供的数据进行数据分析和计算模型构建等工作，识别出工作日早高峰07:00-09:00潮汐现象最突出的40个区域，列出各区域所包含的共享单车停车点位编号名称，并提供计算方法说明及计算模型，为下一步优化措施提供辅助支撑。

任务二：根据任务一Top40区域计算结果进一步设计高峰期共享单车潮汐点优化方案，通过主动引导停车用户到邻近停车点位停车，进行削峰填谷，缓解潮汐点停车位（如地铁口）的拥堵问题。允许使用自带训练数据，但需说明所自带数据的来源及使用方式，并保证其合法合规。（城市公共自行车从业者将发生在早晚高峰时段共享单车“借不到、还不进”的问题称之为“潮汐”现象。本题涉及的“潮汐现象”聚焦“还不进”的问题，识别出早高峰共享单车最淤积的40个区域）。

【文件目录】包含以下所示的数据文件：

/data

- gxdc_dd.csv

- gxdc_gj20201221.csv

- gxdc_gj20201222.csv

- gxdc_gj20201223.csv

- gxdc_gj20201224.csv

- gxdc_gj20201225.csv

- gxdc_tcd.csv

【数据描述】gxdc_gj2020122x.csv表示共享单车轨迹数据-2020122x，共享单车在使用时候产生的位置定位数据，数据范围为2020年12月xx日上午06:00-10:00，具体数据项包括：

BICYCLE_ID：车辆编码；

LOCATING_TIME：定位时间；

LATITUDE：纬度（WGS84坐标）；

LONGITUDE：经度（WGS84坐标）；

source：数据来源；

LOCATING_TIME1：定位时间；

date：日期；

day：日；

time：时间；

hour：小时。

gxdc_tcd.csv表示共享单车停车点位（电子围栏）数据，为规范共享单车停车秩序，统一划定的共享单车停放区域。数据范围为厦门市思明区和湖里区（1.4071万条）。具体数据项包括：

FENCE_ID：电子围栏唯一编号；

FENCE_LOC：电子围栏位置坐标串（包括电子围栏所在位置四个顶点的坐标信息，WGS84坐标）。

gxdc_dd.csv表示共享单车订单数据，为共享单车使用时开锁和关锁信息的数据。数据范围为2020年12月21日-2020年12月25日 06：00-10：00（58.5292万条）。具体数据项包括：

BICYCLE_ID：车辆编码；

LATITUDE：纬度（WGS84坐标）；

LONGITUDE：经度（WGS84坐标）；

LOCK_STATUS：锁的状态（0-开锁，1-关锁）；

UPDATE_TIME：锁状态更新时间。

—

交易验证码识别数据集

【赛题背景】2022数字中国创新大赛算法—大数据赛道。验证码作为性价较高的安全验证方法，在多场合得到了广泛的应用，有效地防止了机器人进行身份欺骗，其中，以基于文本字符的静态验证码最为常见。随着使用的深入，噪声点、噪声线、重叠、形变等干扰手段层出不穷，不断提升安全防范级别。RPA技术作为企业数字化转型的关键，因为其部署的非侵入式备受企业青睐，验证码识别率不高往往限制了RPA技术的应用。一个能同时过滤多种干扰的验证码模型，对于相关自动化技术的拓展使用有着一定的商业价值。

【应用领域】AI+验证码目标识别

【数据任务】以已标记字符信息的实例字符验证码图像数据为训练样本，需基于提供的样本构建模型，对测试集中的字符验证码图像进行识别，提取有效的字符信息。训练数据集不局限于提供的数据，可以加入公开的数据集。

【文件目录】包含以下所示的数据文件：

/data

- training_dataset

- test_dataset

/DCIC-OCR-main

- data

-- code

-- prediction_result

-- raw_data

-- user_data

- image

submit_example.csv

【数据描述】提供15000张带标注信息的训练数据集，每张训练数据都是包含一个4位文本字符的验证码图像，并对当前图像中的文本字符进行了标注；测试数据集含25000张验证码图像。

提供训练数据集training_dataset（文件名称即对应该图片文本字符标签）；提供测试数据集test_dataset，测试数据集包含待识别的图像文件。

【参考算法】DCIC-OCR-main参考项目的解决方案为：

A、使用基于多分类的思路，以effb4为主要模型；

B、使用多种数据增强手段进行增强，包括mixup、cutmix、fmix等；

C、使用imagecaptcha库进行数据生成；

D、使用EMA增强模型性能；

E、使用贝叶斯优化提升模型融合效果。

运行步骤如下：

1、下载image文件夹内的镜像并用7z解压；

2、将训练、测试数据分别放置于raw_data/train、raw_data/test；

3、运行image/run.sh脚本即可得到结果。

—

金融科技欺诈风险识别数据集

【赛题背景】2023数字中国创新大赛算法—数据开发赛道。银行业金融机构需筑牢反欺诈“防火墙”，为业务的健康发展保驾护航，监管机构要求各家银行开发和运用有效的金融科技和大数据系统，分析涉赌涉诈资金交易新方式，总结资金风险新特征，持续优化风险监测模型，全面排查存量风险。于2022年12月正式施行的《中华人民共和国反电信网络诈骗法》把反欺诈工作上升到了法律层面。该法案亦指出，银行业金融机构应当建立完善符合电信网络诈骗活动特征的异常账户和可疑交易的监测机制。

【应用领域】AI+金融欺诈风险识别

【数据任务】运用有效的金融科技和大数据系统，分析涉赌涉诈资金交易新方式，持续优化风险监测模型，通过赛题提供的涉赌涉诈黑名单、白名单及用于训练的相关交易流水数据集，构建涉赌涉诈账户算法识别模型，全面排查存量风险。

【文件目录】包含以下所示的数据文件：

test_dataset.csv

训练集标签.csv

账户交易信息.csv

账户静态信息.csv

baseline_0.8546.ipynb

数据说明.xls

submit_example.csv

【数据描述】账户交易流水、账户静态信息（均为仿真数据）。训练数据由300户涉诈涉赌账户（标志为1）+900户低风险账户（标志为0）所组成，训练数据集由上述账户的交易流水及交易相关账户静态信息组成，数据结构说明如下：

训练集标签：

账户交易信息：

账户静态信息：

【预测结果说明】

提交文件格式为csv文件，编码采用utf-8，格式与submission.csv相同，文件字段为第一列为账号、第二列为是否涉诈涉赌（1为涉及，0为不涉及）。采用预测结果的F1值评价程序算法，F1越高说明算法越优秀。

—

虚拟货币挖矿行为识别数据集

【赛题背景】2022数字中国创新大赛算法—能源大数据子赛道。虚拟货币“挖矿”行为每年可能消耗全球多达134.89太瓦时的电力，相当于中国3亿家庭一年所耗费的电量。为有效防范处置虚拟货币“挖矿”活动盲目无序发展带来的风险隐患，助力实现碳达峰、碳中和目标，通过用电数据，运用大数据分析手段识别虚拟货币“挖矿”行为将变得尤为重要。

【应用领域】AI+用户挖矿行为识别

【数据任务】给定某区域企业近2年节假日用电量、月用电量等特征数据，要求根据样本所提供数据构建相关算法模型，在样本用户中识别筛选出疑似虚拟货币“挖矿”行为用户。

【文件目录】包含以下所示的数据文件：

/比赛数据

- training_dataset.zip

- test_dataset.zip

- B榜_testdataset.zip

rule_baseline.ipynb

rule_advance.py

【数据描述】识别虚拟货币“挖矿”行为的用电数据分为训练组和测试组两大类，主要包括企业档案明细、月用电明细和日用电明细三个部分。月用电数据范围是2020年1月到2021年10月份，日用电数据为2020年、2021年两年的节假日（包括春节、五一、端午、国庆、清明等节假日，前后各延长两天）的用电数据。数据集文件的格式为csv格式。

训练组包括4个文件：训练组_比特币挖矿_档案明细、训练组_比特币挖矿_月用电明细、训练组_比特币挖矿_日用电明细、训练组_比特币挖矿_疑似用户明细；

测试组包括4个文件：测试组_比特币挖矿_档案明细、测试组_比特币挖矿_月用电明细、测试组_比特币挖矿_日用电明细、测试组_比特币挖矿_疑似用户明细；

A、档案明细

档案明细存储的是用电客户的档案信息：