【无标题】

最新推荐文章于 2023-11-07 16:46:38 发布

DataFountain数据科学

最新推荐文章于 2023-11-07 16:46:38 发布

阅读量1.4k

点赞数

文章标签：人工智能开发语言计算机视觉 python sql

本文链接：https://blog.csdn.net/DataFountain/article/details/126939742

版权

2022年大数据与AI领域年度盛事——第十届CCF大数据与计算智能大赛正式开赛！规模宏大，阵容豪华，含金量高，奖励丰厚，在业内拥有较高的知名度、关注度和认可度，堪称“年度最值得参与的国际大数据与AI赛事之一”。

大/赛/介/绍

CCF大数据与计算智能大赛（CCF Big Data & Computing Intelligence Contest，简称CCF BDCI）由中国计算机学会于2013年创办，是大数据与人工智能领域的算法、应用和系统大型挑战赛事。迄今已成功举办九届，累计吸引全球25个国家、1500余所高校、1800余家企事业单位及80余所科研机构的16万余人参与，已成为中国大数据与人工智能领域影响力最广、参赛规模最大、成熟度最高的综合赛事之一。

十年磨砺，创新聚力再出发，2022年第十届CCF BDCI将进一步关注数字经济技术发展与人才培养，助力推动我国大数据技术及产业生态发展。大赛从百度、华为、360等10余家知名企业和科研院所征集大规模数据与真实场景，形成了涉及图像识别、自然语言处理、数据挖掘、系统优化等不同技术方向的20余道赛题，通过在线排行榜自动评测与院士专家评审结合的方式选拔优秀团队。

大/赛/亮/点

1、国际级权威赛事

中国计算机学会（CCF）主办，CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会、CCF软件工程专业委员会、教育部易班发展中心、LandInn兰亭、北京数联众创科技有限公司联合承办，DataFountain竞赛平台（DF平台）作为大赛官方平台提供专业支持与服务。

2、顶级专家云集

梅宏、李国杰、倪光南、徐宗本等七大院士指导，国内外百余名学术专家及百度、华为、360等十余家名企技术专家共同组成大赛专家委员会，产学研结合，共同助力大赛举办。

3、百万级别奖项

总奖金池近百万元，入围决赛即可获得招聘绿色通道、政府及知名投资机构的投融资及孵化扶持，还有各合作单位提供的项目成果应用与试点机会，还有周冠军、邀请榜等赛事花样活动大礼包收到手软。

4、顶尖企业共创

国内各技术领域顶尖企业——百度、华为、360、竹云、达观数据、算能、联通数科、数元灵科技、智慧芽、蚂蚁技术研究院等企业作为大赛合作单位，共创顶级赛事。

5、探索硬核技术

大赛面向重点行业和应用领域征集需求，以前沿技术与行业应用问题为导向，以促进行业发展及产业升级为目标，以众智、众包的方式，汇聚海内外产学研用多方智慧，共同探索前沿硬核技术。

6、甄选优质赛题

甄选自然语言处理、数据挖掘、计算机视觉等多种技术领域，知识挖掘、分类问题、图像分割、知识图谱、性能优化、图计算、关系抽取等多种技术方向的20余道优质赛题，为不同研究方向的数据爱好者提供多维参赛机会。

7、共建开源生态

在条件允许情况下，所有决赛入围的作品将统一开源，借由全球技术精英的力量，惠及所有大数据及人工智能参赛者、学习者及从业者。

8、赛练结合促学

大赛采用赛练结合模式，大奖赛和训练赛兼具，以练备赛，以赛促学，鼓励选手在训练赛道开源分享，帮助初学者锻炼基础能力，辅助高校开展相关专业及课程教学实践工作。

赛/道/赛/题

算法赛道

赛题名称：基于文心CV大模型的智慧城市视觉多任务识别

出题单位：百度

赛题奖金：￥5万

技术方向：图像分类

难易程度：★★★

赛题背景：近年来预训练大模型一次次刷新记录，展现出惊人的效果。但受算力和存储的限制，大模型无法直接部署在边缘设备上。针对大模型的开发和部署问题，VIMER-UFO 给出了 One for All 的解决方案，将不同参数量、不同任务功能和不同精度的模型训练过程变为训练一个超网络模型。

赛题任务：选手需使用飞桨（PaddlePaddle）深度学习框架，基于人脸、人体、车辆、商品四大场景任务，训练视觉大一统模型。

赛题名称：系统访问风险识别

出题单位：竹云科技

赛题奖金：￥5万

技术方向：分类问题

难易程度：★★

赛题背景：在当前IAM的探索进程当中，最易落地的方法是基于规则的行为分析技术。它的可理解性很高，且很容易与身份鉴别技术进行联动，但它是基于经验的，缺少从数据层面来证明是否有人正在尝试窃取/验证非法获取的身份信息，或正在使用窃取的身份信息。

赛题任务：基于用户历史的系统访问日志及是否存在风险标记等数据，结合行业知识，构建必要的特征工程，建立机器学习、人工智能或数据挖掘模型，并用该模型预测将来的系统访问是否存在风险。

赛题名称：高端装备制造知识图谱自动化构建技术评测任务

出题单位：达观数据

赛题奖金：￥5.5万

技术方向：知识图谱关系抽取

难易程度：★★★

赛题背景：各种高端装备领域的故障案例文本是由业务专家或者专业维修人员撰写的描述相关设备异常以及故障排查步骤的记录，它的利用受到数据结构化程度的影响，因而识别数据中的部件单元、性能表征、故障状态、故障检测工具等核心实体及其之间的组成关系至关重要。

赛题任务：通过从大量故障案例文本抽取出部件单元、性能表征、故障状态、检测工具等实体及其关系，为后续高端装备制造业故障知识图谱构建和故障智能检修和实时诊断打下坚实基础。本任务需从故障案例文本自动抽取4种类型的关系和4种类型的实体。

赛题名称：返乡发展人群预测

出题单位：联通数科

赛题奖金：￥5万

技术方向：分类问题

难易程度：★★

赛题背景：近年来，随着新一线城市的快速发展，带领着我国经济稳步发展，新一线城市对人才的吸引力也逐年递增，紧追一线城市。越来越多的年轻人不再局限于在一线城市谋求就业机会，而是选择回到家乡就业。

赛题任务：基于中国联通的大数据能力，通过使用对联通的信令数据、通话数据、互联网行为等数据进行建模，对个人是否会返乡工作进行判断。

赛题名称：小样本数据分类任务

出题单位：智慧芽

赛题奖金：￥4.2万

技术方向：文本分类

难易程度：★★★

赛题背景：常见的分类体系有国际专利分类(IPC)、联合专利分类(CPC)、欧洲专利分类(ECLA)等，但这些分类体系比较复杂，专业性强，对非IP人员而言使用有一定的困难。

赛题任务：为了解决以上困难，智慧芽构建了一种新的分类体系，并提供958条训练数据，及对应36个类别的分类标签，要求选手设计一套算法，完成测试专利数据的分类任务。

自主平台赛道

赛题名称：基于文心NLP大模型的阅读理解可解释评测

出题单位：百度

赛题奖金：￥5万

技术方向：知识挖掘阅读理解

难易程度：★★★

赛题背景：神经网络（NN）模型已经成功地应用于很多 NLP 任务并取得了不错成绩，但NN模型的黑盒性质降低了使用者对其结果的信任度，因此NN模型的可解释性、鲁棒性等问题受到广泛关注。为进一步推动模型可解释性研究的发展。

赛题任务：选手需使用飞桨（PaddlePaddle）深度学习框架，根据给定的一段文本T及与其相关的问题Q，从文本T中抽取问题Q对应的的答案，同时给出模型预测答案所依赖的证据。

赛题名称：基于昇思MindSpore AI框架的肾脏肿瘤分割

出题单位：华为

赛题奖金：￥5万

技术方向：文本分类

难易程度：★★★★

赛题背景：近年来深度学习方法在图像分割领域引起广泛关注，特别是UNet等网络在肿瘤分割中取得显著的效果，但其在结构设计、训练模式等方面仍有进一步提升空间。

赛题任务：参赛团队利用赛方所提供数据，分析数据特点，在华为昇思MindSpore AI框架上设计、开发可用于肾脏和肾脏肿瘤语义分割的算法模型，在测试集中得到最好的肾脏和肾脏肿瘤语义分割结果的模型为获胜者。

赛题名称：基于TPU平台实现人群密度估计

出题单位：算能

赛题奖金：￥5万

技术方向：人群计数

难易程度：★★★★

赛题背景：人群密度估计是计算机视觉中的一项重要任务，旨在同时识别各种情况下的任意大小的目标，包括稀疏和杂乱的场景。它主要应用于现实生活中的自动化公共监控，能够在公共安全管理、公共空间设计、数据收集分析等方面发挥重要的作用。

赛题任务：参赛者选用预训练的模型部署在算能TPU芯片上，无需自己训练模型；在实现模型部署的过程中，参赛者需兼顾精度与推理速度。

系统赛道

赛题名称：基于openLooKeng SQL语句内存使用量预测系统

出题单位：华为

赛题奖金：￥5万

技术方向：性能优化

难易程度：★★★★★

赛题背景：全内存查询引擎由于其高性能被广泛应用于各大厂商，但是它普遍面临的问题是，当SQL语句使用的内存超出了系统的内存大小时，就会导致SQL语句执行失败，甚至可能会导致系统崩溃。因此，在SQL运行前准确预估SQL内存的使用量对系统的稳定性尤为重要。

赛题任务：本赛题只涉及SQL语句内存使用量预测系统，重点在于根据SQL涉及的算子、表格数据量和参与计算的列等信息，建立一个内存使用量预测系统。

赛题名称：数据湖流批一体性能优化

出题单位：数元灵科技

赛题奖金：￥5万

技术方向：性能优化

难易程度：★★★★★

赛题背景：湖仓存储框架的流批一体读写性能，关系到数据能否快速、准确的摄入到湖仓中，并做高效的数据处理分析。而数据湖通常使用计算存储分离的设计，并且需要支持多种计算框架、支持对象存储等，给读写性能优化带来很大的挑战。

赛题任务：参赛选手可以选择一个数据湖存储框架，在保证数据正确性的前提下，通过调优参数、优化代码的方式来优化性能，提升写入速度。

赛题名称：大规模金融图数据中异常风险行为模式挖掘

出题单位：蚂蚁技术研究院

赛题奖金：￥5万

技术方向：图计算

难易程度：★★★★

赛题背景：业界常用的频繁子图挖掘算法可以帮助发现高频出现的子图结构，如何使用频繁子图挖掘算法高效地进行异常风险行为模式挖掘显得尤为重要。

赛题任务：赛题使用简化的金融仿真数据，数据为带有时间戳和金额的账户间交易、转账等数据。基于此数据自动挖掘出不小于频繁度（f >= 10000）的频繁子图模式集合。

数字安全专题赛

1、赛题名称：Linux跨平台二进制函数识别

出题单位：360网络安全研究院、360未来安全研究院AI安全实验室

赛题奖金：￥8万

技术方向：文本预处理

难易程度：★★★★

赛题背景：设备平台环境的多样性导致了相同代码在二进制形式下的多样性，这种多样性给跨平台下相似代码的识别带来了巨大的挑战。

赛题任务：数据集分为训练集和测试集两部分，参赛选手需要先根据训练集中的样本数据自主设计算法模型，然后再对测试集中的函数进行相似匹配识别，从而尽可能多地找出与指定函数相似的其他平台下的函数。

2、赛题名称：基于人工智能的漏洞数据分类

出题单位：中国科学院信息工程研究所、360未来安全研究院工业互联网实验室

赛题奖金：￥8万

技术方向：文本分类关系抽取

难易程度：★★★★

赛题背景：CVE平台的漏洞信息包含有CVE编号、漏洞评分、漏洞描述等内容，为更好地理解和持续研究，需将这些漏洞信息按照一定规则进行筛选分类。但人工筛选分类效率较低、耗时耗力，利用人工智能、通过自然语言处理则可能更好地解决这一问题。

赛题任务：本赛题分为A、B榜，平台将提供数据分类规则和具体内容，参赛选手需通过平台给出的已标注数据、未标注的漏洞数据，设计软件算法模型并不断完善模型对于分析数据结果的正确率。

3、赛题名称：大数据平台安全事件检测与分类识别

出题单位：北京科技大学网络空间安全与大数据智能应用实验室

赛题奖金：￥8万

技术方向：文本分类

难易程度：★★★

赛题背景：针对，日志审计分析是数据安全问题一种非常有效的风险应对手段，基于大数据平台日志、安全设备日志和平台网络流量等多源异构数据进行分析，可有效实现攻击行为的发现或预测，并进行溯源，保护企业或组织内部数据安全。

赛题任务：根据赛题提供的无标签大数据平台日志数据，参赛队利用机器学习、深度学习，UEBA等人工智能方法，构建系统用户使用大数据平台的行为基线和数据安全事件识别及分类模型。

4、赛题名称：Web攻击检测与分类识别

出题单位：清华大学网络研究院-北京奇虎科技有限公司网络空间测绘联合研究中心、360信息安全中心

赛题奖金：￥6万

技术方向：文本分类

难易程度：★★★

赛题背景：如何快速准确地识别未知威胁攻击并且将不同攻击正确分类，对提升Web攻击检测能力至关重要。利用机器学习和深度学习技术对攻击报文进行识别和分类已经成为解决该问题的创新思路，有利于推动AI技术在威胁检测分析场景的研究与应用。

赛题任务：参赛团队需要对前期提供的训练集进行分析，通过特征工程、机器学习和深度学习等方法构建AI模型，实现对每一条样本正确且快速分类，不断提高模型精确率和召回率。

训练赛道

1、赛题名称：openEuler社区视频会议纪要自动生成

出题单位：开放原子基金会、openEuler社区

赛题奖金：￥1.8万

技术方向：文本摘要

难易程度：★★★

赛题背景：openEuler社区平均每个星期产生超过2400分钟的会议视频，这些视频会自动归档并上传到第三方视频网站。openEuler社区希望能对视频内容自动生成文字版会议纪要，以方便社区管理团队、社区运营团队、开发者通过文字阅读的方式快速掌握各SIG组开发进展，同时根据纪要内容生成关键字、摘要以及适当的视频封面。

赛题任务：开发可以在openEuler 22.03 LTS上独立部署的视频处理软件，通过CLI或API对指定的openEuler SIG组会议视频录像进行处理，对视频内容自动生成文字版会议纪要，并输出到指定位置。

2、赛题名称：基于openGauss的自然语言查询器

出题单位：华为、openGauss社区

赛题奖金：￥1.8万

技术方向：性能优化

难易程度：★★★★

赛题背景：普通用户可以通过数据库在线操作和体验平台TryMe来了解和学习数据库的基本操作，但众多普通用户不具备SQL基础。为方便更多用户了解和学习数据库，openGauss社区希望在当前TryMe平台之上，提供一种自然语言查询器，普通用户可以直接通过日常使用的自然语言在TryMe平台上体验openGauss数据库。

赛题任务：将用户输入的自然语言文本，基于机器学习和AI算法识别，经过NLP分析处理后，转换生成对应的SQL语句。生成的SQL能够实现用户的需求并可以在openGauss数据库成功执行。

3、赛题名称：带噪音的社交网络对齐

出题专家：周斌，国防科技大学计算机学院国产基础软件工程研究中心副主任，CCF大数据专业委员会委员

赛题奖项：CCF权威证书

技术方向：图计算

难易程度：★★★

赛题背景：社交网络对齐，是在多个社交网络之间找到对应的用户，这些对应用户属于真实世界中的同一个自然人。真实应用中的网络差异信息和噪音可以简化为两种情况：网络结构差异和锚点监督信息的噪音，这两种信息差异或噪音情况都会给社交网络对齐任务带来困难。

赛题任务：依据Arenas的Email网络数据，利用机器学习、深度学习等相关技术，建立一个在噪音存在情况下能准确对齐网络实体的模型，从而分析并挖掘网络中用户的对齐关系。

4、赛题名称：电磁信号调制方式识别

出题单位：中孚信息

赛题奖项：CCF权威证书

技术方向：分类问题

难易程度：★★★

赛题背景：信号调制识别作为信号检测和解调的中间过程被广泛的应用于信号检测识别领域，能够对未知信号的调制方式进行自动判决识别，进而为非法信号的正确解调提供调制信息。调制识别技术在军事电子对抗、民用频谱监测管理、软件无线电以及认知无线电领域都有着广泛的应用，已成为当前一个重要的研究课题和热点。

赛题任务：通过软件无线电平台（GNU Radio）采集在不同信噪比下不同调制方式信号的IQ数据，利用深度学习等相关技术，建立稳健的信号调制方式识别模型，识别出未知信号的调制方式种类。

5、赛题名称：跨域评分预测

出题专家：朱小飞，重庆理工大学教授

赛题奖项：CCF权威证书

技术方向：分类问题

难易程度：★★★

赛题背景：跨域推荐技术是一种十分有效的冷启动问题的解决方案，如何将源域知识有效迁移到目标域中去进而缓解目标域中的冷启动问题，是跨域推荐系统是否高效的关键。

赛题任务：依据源域和目标域的用户和商品的交互信息，利用机器学习、深度学习等相关技术，建立有效的跨域推荐模型，使得模型能有效地迁移用户在源域中的知识，进而能准确预测用户对给定目标域商品的评分。

6、赛题名称：模心智创-文心大模型智能创意赛

出题单位：百度

赛题奖项：CCF权威证书+丰厚礼包

技术方向：创意方案

难易程度：★★★

赛题简介：本赛题为文心大模型智能创意赛，选手可在文心大模型API开放平台中使用不限于文生图、Text2SQL、作文创作、文案创作、摘要生成、问题生成、古诗创作、对联续写、小说续写、自由问答、信息抽取、同义改写、文本匹配、文本纠错、完形填空等文心大模型API进行参赛。

赛/程/赛/制

2022/8/29 大赛赛题发布，开放报名

2022/9/5-11/7 初赛A榜阶段，数据下载及作品提交

2022/11/9 初赛B榜阶段

2022/11/26-11/27 决赛答辩评审

2022/12 中旬 大赛总决赛（线下）

*各赛题赛程设置略有不同，以各赛题详情页面内容为准。

大/赛/奖/项

单赛题奖

单赛题一二三等共五支团队，各获奖团队队员均可获得奖金、证书、面试绿色通道等奖励；
参与任意赛题并获得排行榜成绩，即可获得电子证书。

CCF BDCI综合奖

综合特等奖一名、最佳单项奖三名，参赛团队队员均可获得奖金、证书及相关荣誉。

参赛特别奖

参赛过程中将根据参赛团队周榜、邀请等活动可获得特别奖项。

就业与孵化机会

绿色通道：优秀团队可获得相关赛题出题单位实习、就职绿色通道；
创业孵化：优秀团队可获得由政府、投资机构投提供的融资、孵化支持；
落地应用：优秀团队可获得由大赛各合作单位提供的项目成果应用、试点机会。

优秀指导老师奖

各赛题一等奖指导老师，及对大赛辅导、宣传、组织提供重要支持的老师可获得。

特别贡献奖

在大赛组织工作中做出突出贡献的个人或单位可获得。

优秀合作伙伴奖

对大赛组织做出重要支持的合作单位可获得。

*注：各赛题奖项设置略有不同，以大赛官网公布的各赛题详情页面内容为准。

组/织/架/构

指导单位：苏州市人民政府

主办单位：中国计算机学会

支持单位：苏州市吴江区人民政府

承办单位：苏州市吴江区科技局、苏州市吴江区工信局、CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会、CCF软件工程专业委员会、易班网、苏州大学未来科学与工程学院、LandInn兰亭、DataFountain数联众创

战略合作：百度、华为

专题赛合作：360未来安全研究院、苏州市相城区人民政府

赛题合作：竹云、达观数据、算能、联通数科、数元灵科技、智慧芽、蚂蚁技术研究院

官方竞赛平台：DataFountain、LandInn兰亭

生态合作媒体：CSDN、计算机保研岛（持续更新中）

组/委/会/专/家

百余位专家学者倾力助阵，全力保障大赛工作公正、有序、规范开展，积极推动学术进步、落地技术成果应用，为实现人才培养献力献策。

指导委员会主席

大赛指导委员会为CCF BDCI指导机构，为大赛明确定位及发展方向，推动学术进步、落地技术成果应用、实现人才培养。