【无标题】

2022年大数据与AI领域年度盛事——第十届CCF大数据与计算智能大赛正式开赛!规模宏大,阵容豪华,含金量高,奖励丰厚,在业内拥有较高的知名度、关注度和认可度,堪称“年度最值得参与的国际大数据与AI赛事之一”。

 

大/赛/介/绍

CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。迄今已成功举办九届,累计吸引全球25个国家1500余所高校1800余家企事业单位80余所科研机构16万余人参与,已成为中国大数据与人工智能领域影响力最广、参赛规模最大、成熟度最高的综合赛事之一。

十年磨砺,创新聚力再出发,2022年第十届CCF BDCI将进一步关注数字经济技术发展与人才培养,助力推动我国大数据技术及产业生态发展。大赛从百度、华为、360等10余家知名企业和科研院所征集大规模数据与真实场景,形成了涉及图像识别、自然语言处理、数据挖掘、系统优化等不同技术方向的20余道赛题,通过在线排行榜自动评测与院士专家评审结合的方式选拔优秀团队。

大/赛/亮/点

1、国际级权威赛事

中国计算机学会(CCF)主办,CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会、CCF软件工程专业委员会、教育部易班发展中心、LandInn兰亭、北京数联众创科技有限公司联合承办,DataFountain竞赛平台(DF平台)作为大赛官方平台提供专业支持与服务。

2、顶级专家云集

梅宏、李国杰、倪光南、徐宗本等七大院士指导,国内外百余名学术专家及百度、华为、360等十余家名企技术专家共同组成大赛专家委员会,产学研结合,共同助力大赛举办。

3、百万级别奖项

总奖金池近百万元,入围决赛即可获得招聘绿色通道、政府及知名投资机构的投融资及孵化扶持,还有各合作单位提供的项目成果应用与试点机会,还有周冠军、邀请榜等赛事花样活动大礼包收到手软。

4、顶尖企业共创

国内各技术领域顶尖企业——百度、华为、360、竹云、达观数据、算能、联通数科、数元灵科技、智慧芽、蚂蚁技术研究院等企业作为大赛合作单位,共创顶级赛事。

5、探索硬核技术

大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,共同探索前沿硬核技术。

6、甄选优质赛题

甄选自然语言处理、数据挖掘、计算机视觉等多种技术领域,知识挖掘、分类问题、图像分割、知识图谱、性能优化、图计算、关系抽取等多种技术方向的20余道优质赛题,为不同研究方向的数据爱好者提供多维参赛机会。

7、共建开源生态

在条件允许情况下,所有决赛入围的作品将统一开源,借由全球技术精英的力量,惠及所有大数据及人工智能参赛者、学习者及从业者。

8、赛练结合促学

大赛采用赛练结合模式,大奖赛和训练赛兼具,以练备赛,以赛促学,鼓励选手在训练赛道开源分享,帮助初学者锻炼基础能力,辅助高校开展相关专业及课程教学实践工作。

赛/道/赛/题

算法赛道

赛题名称:基于文心CV大模型的智慧城市视觉多任务识别

出题单位:百度

赛题奖金:¥5万

技术方向:图像分类

难易程度:★★★

赛题背景:近年来预训练大模型一次次刷新记录,展现出惊人的效果。但受算力和存储的限制,大模型无法直接部署在边缘设备上。针对大模型的开发和部署问题,VIMER-UFO 给出了 One for All 的解决方案,将不同参数量、不同任务功能和不同精度的模型训练过程变为训练一个超网络模型。

赛题任务:选手需使用飞桨(PaddlePaddle)深度学习框架,基于人脸、人体、车辆、商品四大场景任务,训练视觉大一统模型。

 

赛题名称:系统访问风险识别

出题单位:竹云科技

赛题奖金:¥5万

技术方向:分类问题

难易程度:★★

赛题背景:在当前IAM的探索进程当中,最易落地的方法是基于规则的行为分析技术。它的可理解性很高,且很容易与身份鉴别技术进行联动,但它是基于经验的,缺少从数据层面来证明是否有人正在尝试窃取/验证非法获取的身份信息,或正在使用窃取的身份信息。

赛题任务:基于用户历史的系统访问日志及是否存在风险标记等数据,结合行业知识,构建必要的特征工程,建立机器学习、人工智能或数据挖掘模型,并用该模型预测将来的系统访问是否存在风险。

赛题名称:高端装备制造知识图谱自动化构建技术评测任务

出题单位:达观数据

赛题奖金:¥5.5万

技术方向:知识图谱 关系抽取

难易程度:★★★

赛题背景:各种高端装备领域的故障案例文本是由业务专家或者专业维修人员撰写的描述相关设备异常以及故障排查步骤的记录,它的利用受到数据结构化程度的影响,因而识别数据中的部件单元、性能表征、故障状态、故障检测工具等核心实体及其之间的组成关系至关重要。

赛题任务:通过从大量故障案例文本抽取出部件单元、性能表征、故障状态、检测工具等实体及其关系,为后续高端装备制造业故障知识图谱构建和故障智能检修和实时诊断打下坚实基础。本任务需从故障案例文本自动抽取4种类型的关系和4种类型的实体。

赛题名称:返乡发展人群预测

出题单位:联通数科

赛题奖金:¥5万

技术方向:分类问题

难易程度:★★

赛题背景:近年来,随着新一线城市的快速发展,带领着我国经济稳步发展,新一线城市对人才的吸引力也逐年递增,紧追一线城市。越来越多的年轻人不再局限于在一线城市谋求就业机会,而是选择回到家乡就业。

赛题任务:基于中国联通的大数据能力,通过使用对联通的信令数据、通话数据、互联网行为等数据进行建模,对个人是否会返乡工作进行判断。

赛题名称:小样本数据分类任务

出题单位:智慧芽

赛题奖金:¥4.2万

技术方向:文本分类

难易程度:★★★

赛题背景:常见的分类体系有国际专利分类(IPC)、联合专利分类(CPC)、欧洲专利分类(ECLA)等,但这些分类体系比较复杂,专业性强,对非IP人员而言使用有一定的困难。

赛题任务:为了解决以上困难,智慧芽构建了一种新的分类体系,并提供958条训练数据,及对应36个类别的分类标签,要求选手设计一套算法,完成测试专利数据的分类任务。

自主平台赛道

赛题名称基于文心NLP大模型的阅读理解可解释评测

出题单位:百度

赛题奖金:¥5万

技术方向:知识挖掘 阅读理解

难易程度:★★★

赛题背景:神经网络(NN)模型已经成功地应用于很多 NLP 任务并取得了不错成绩,但NN模型的黑盒性质降低了使用者对其结果的信任度,因此NN模型的可解释性、鲁棒性等问题受到广泛关注。为进一步推动模型可解释性研究的发展。

赛题任务:选手需使用飞桨(PaddlePaddle)深度学习框架,根据给定的一段文本T及与其相关的问题Q,从文本T中抽取问题Q对应的的答案,同时给出模型预测答案所依赖的证据。

 

赛题名称:基于昇思MindSpore AI框架的肾脏肿瘤分割

出题单位:华为

赛题奖金:¥5万

技术方向:文本分类

难易程度:★★★★

赛题背景:近年来深度学习方法在图像分割领域引起广泛关注,特别是UNet等网络在肿瘤分割中取得显著的效果,但其在结构设计、训练模式等方面仍有进一步提升空间。

赛题任务:参赛团队利用赛方所提供数据,分析数据特点,在华为昇思MindSpore AI框架上设计、开发可用于肾脏和肾脏肿瘤语义分割的算法模型,在测试集中得到最好的肾脏和肾脏肿瘤语义分割结果的模型为获胜者。

 

赛题名称:基于TPU平台实现人群密度估计

出题单位:算能

赛题奖金:¥5万

技术方向:人群计数

难易程度:★★★★

赛题背景:人群密度估计是计算机视觉中的一项重要任务,旨在同时识别各种情况下的任意大小的目标,包括稀疏和杂乱的场景。它主要应用于现实生活中的自动化公共监控,能够在公共安全管理、公共空间设计、数据收集分析等方面发挥重要的作用。

赛题任务:参赛者选用预训练的模型部署在算能TPU芯片上,无需自己训练模型;在实现模型部署的过程中,参赛者需兼顾精度与推理速度。

系统赛道

 

赛题名称:基于openLooKeng SQL语句内存使用量预测系统

出题单位:华为

赛题奖金:¥5万

技术方向:性能优化

难易程度:★★★★★

赛题背景:全内存查询引擎由于其高性能被广泛应用于各大厂商,但是它普遍面临的问题是,当SQL语句使用的内存超出了系统的内存大小时,就会导致SQL语句执行失败,甚至可能会导致系统崩溃。因此,在SQL运行前准确预估SQL内存的使用量对系统的稳定性尤为重要。

赛题任务:本赛题只涉及SQL语句内存使用量预测系统,重点在于根据SQL涉及的算子、表格数据量和参与计算的列等信息,建立一个内存使用量预测系统。

赛题名称:数据湖流批一体性能优化

出题单位:数元灵科技

赛题奖金:¥5万

技术方向:性能优化

难易程度:★★★★★

赛题背景:湖仓存储框架的流批一体读写性能,关系到数据能否快速、准确的摄入到湖仓中,并做高效的数据处理分析。而数据湖通常使用计算存储分离的设计,并且需要支持多种计算框架、支持对象存储等,给读写性能优化带来很大的挑战。

赛题任务:参赛选手可以选择一个数据湖存储框架,在保证数据正确性的前提下,通过调优参数、优化代码的方式来优化性能,提升写入速度。

赛题名称:大规模金融图数据中异常风险行为模式挖掘

出题单位:蚂蚁技术研究院

赛题奖金:¥5万

技术方向:图计算

难易程度:★★★★

赛题背景:业界常用的频繁子图挖掘算法可以帮助发现高频出现的子图结构,如何使用频繁子图挖掘算法高效地进行异常风险行为模式挖掘显得尤为重要。

赛题任务:赛题使用简化的金融仿真数据,数据为带有时间戳和金额的账户间交易、转账等数据。基于此数据自动挖掘出不小于频繁度(f >= 10000)的频繁子图模式集合。

数字安全专题赛

1、赛题名称:Linux跨平台二进制函数识别

出题单位:360网络安全研究院、360未来安全研究院AI安全实验室

赛题奖金:¥8万

技术方向:文本预处理

难易程度:★★★★

赛题背景:设备平台环境的多样性导致了相同代码在二进制形式下的多样性,这种多样性给跨平台下相似代码的识别带来了巨大的挑战。

赛题任务:数据集分为训练集和测试集两部分,参赛选手需要先根据训练集中的样本数据自主设计算法模型,然后再对测试集中的函数进行相似匹配识别,从而尽可能多地找出与指定函数相似的其他平台下的函数。

2、赛题名称:基于人工智能的漏洞数据分类

出题单位:中国科学院信息工程研究所、360未来安全研究院工业互联网实验室

赛题奖金:¥8万

技术方向:文本分类 关系抽取

难易程度:★★★★

赛题背景:CVE平台的漏洞信息包含有CVE编号、漏洞评分、漏洞描述等内容,为更好地理解和持续研究,需将这些漏洞信息按照一定规则进行筛选分类。但人工筛选分类效率较低、耗时耗力,利用人工智能、通过自然语言处理则可能更好地解决这一问题。

赛题任务:本赛题分为A、B榜,平台将提供数据分类规则和具体内容,参赛选手需通过平台给出的已标注数据、未标注的漏洞数据,设计软件算法模型并不断完善模型对于分析数据结果的正确率。

3、赛题名称:大数据平台安全事件检测与分类识别

出题单位:北京科技大学网络空间安全与大数据智能应用实验室

赛题奖金:¥8万

技术方向:文本分类

难易程度:★★★

赛题背景:针对,日志审计分析是数据安全问题一种非常有效的风险应对手段,基于大数据平台日志、安全设备日志和平台网络流量等多源异构数据进行分析,可有效实现攻击行为的发现或预测,并进行溯源,保护企业或组织内部数据安全。

赛题任务:根据赛题提供的无标签大数据平台日志数据,参赛队利用机器学习、深度学习,UEBA等人工智能方法,构建系统用户使用大数据平台的行为基线和数据安全事件识别及分类模型。

4、赛题名称:Web攻击检测与分类识别

出题单位:清华大学网络研究院-北京奇虎科技有限公司网络空间测绘联合研究中心、360信息安全中心

赛题奖金:¥6万

技术方向:文本分类

难易程度:★★★

赛题背景:如何快速准确地识别未知威胁攻击并且将不同攻击正确分类,对提升Web攻击检测能力至关重要。利用机器学习和深度学习技术对攻击报文进行识别和分类已经成为解决该问题的创新思路,有利于推动AI技术在威胁检测分析场景的研究与应用。

赛题任务:参赛团队需要对前期提供的训练集进行分析,通过特征工程、机器学习和深度学习等方法构建AI模型,实现对每一条样本正确且快速分类,不断提高模型精确率和召回率。

训练赛道

1、赛题名称:openEuler社区视频会议纪要自动生成

出题单位:开放原子基金会、openEuler社区

赛题奖金:¥1.8万

技术方向:文本摘要

难易程度:★★★

赛题背景:openEuler社区平均每个星期产生超过2400分钟的会议视频,这些视频会自动归档并上传到第三方视频网站。openEuler社区希望能对视频内容自动生成文字版会议纪要,以方便社区管理团队、社区运营团队、开发者通过文字阅读的方式快速掌握各SIG组开发进展,同时根据纪要内容生成关键字、摘要以及适当的视频封面。

赛题任务:开发可以在openEuler 22.03 LTS上独立部署的视频处理软件,通过CLI或API对指定的openEuler SIG组会议视频录像进行处理,对视频内容自动生成文字版会议纪要,并输出到指定位置。

2、赛题名称:基于openGauss的自然语言查询器

出题单位:华为、openGauss社区

赛题奖金:¥1.8万

技术方向:性能优化

难易程度:★★★★

赛题背景:普通用户可以通过数据库在线操作和体验平台TryMe来了解和学习数据库的基本操作,但众多普通用户不具备SQL基础。为方便更多用户了解和学习数据库,openGauss社区希望在当前TryMe平台之上,提供一种自然语言查询器,普通用户可以直接通过日常使用的自然语言在TryMe平台上体验openGauss数据库。

赛题任务:将用户输入的自然语言文本,基于机器学习和AI算法识别,经过NLP分析处理后,转换生成对应的SQL语句。生成的SQL能够实现用户的需求并可以在openGauss数据库成功执行。

3、赛题名称:带噪音的社交网络对齐

出题专家:周斌,国防科技大学计算机学院国产基础软件工程研究中心副主任,CCF大数据专业委员会委员

赛题奖项:CCF权威证书

技术方向:图计算

难易程度:★★★

赛题背景:社交网络对齐,是在多个社交网络之间找到对应的用户,这些对应用户属于真实世界中的同一个自然人。真实应用中的网络差异信息和噪音可以简化为两种情况:网络结构差异和锚点监督信息的噪音,这两种信息差异或噪音情况都会给社交网络对齐任务带来困难。

赛题任务:依据Arenas的Email网络数据,利用机器学习、深度学习等相关技术,建立一个在噪音存在情况下能准确对齐网络实体的模型,从而分析并挖掘网络中用户的对齐关系。

4、赛题名称:电磁信号调制方式识别

出题单位:中孚信息

赛题奖项:CCF权威证书

技术方向:分类问题

难易程度:★★★

赛题背景:信号调制识别作为信号检测和解调的中间过程被广泛的应用于信号检测识别领域,能够对未知信号的调制方式进行自动判决识别,进而为非法信号的正确解调提供调制信息。调制识别技术在军事电子对抗、民用频谱监测管理、软件无线电以及认知无线电领域都有着广泛的应用,已成为当前一个重要的研究课题和热点。

赛题任务:通过软件无线电平台(GNU Radio)采集在不同信噪比下不同调制方式信号的IQ数据,利用深度学习等相关技术,建立稳健的信号调制方式识别模型,识别出未知信号的调制方式种类。

5、赛题名称:跨域评分预测

出题专家:朱小飞,重庆理工大学教授

赛题奖项:CCF权威证书

技术方向:分类问题

难易程度:★★★

赛题背景:跨域推荐技术是一种十分有效的冷启动问题的解决方案,如何将源域知识有效迁移到目标域中去进而缓解目标域中的冷启动问题,是跨域推荐系统是否高效的关键。

赛题任务:依据源域和目标域的用户和商品的交互信息,利用机器学习、深度学习等相关技术,建立有效的跨域推荐模型,使得模型能有效地迁移用户在源域中的知识,进而能准确预测用户对给定目标域商品的评分。

6、赛题名称:模心智创-文心大模型智能创意赛

出题单位:百度

赛题奖项:CCF权威证书+丰厚礼包

技术方向:创意方案

难易程度:★★★

赛题简介本赛题为文心大模型智能创意赛,选手可在文心大模型API开放平台中使用不限于文生图、Text2SQL、作文创作、文案创作、摘要生成、问题生成、古诗创作、对联续写、小说续写、自由问答、信息抽取、同义改写、文本匹配、文本纠错、完形填空等文心大模型API进行参赛。

赛/程/赛/制

2022/8/29  大赛赛题发布,开放报名

2022/9/5-11/7  初赛A榜阶段,数据下载及作品提交

2022/11/9  初赛B榜阶段

2022/11/26-11/27  决赛答辩评审

2022/12 中旬  大赛总决赛(线下)

*各赛题赛程设置略有不同,以各赛题详情页面内容为准。

大/赛/奖/项

单赛题奖

单赛题一二三等共五支团队,各获奖团队队员均可获得奖金、证书、面试绿色通道等奖励;
参与任意赛题并获得排行榜成绩,即可获得电子证书。

CCF BDCI综合奖

综合特等奖一名、最佳单项奖三名,参赛团队队员均可获得奖金、证书及相关荣誉。

参赛特别奖

参赛过程中将根据参赛团队周榜、邀请等活动可获得特别奖项。

就业与孵化机会

  • 绿色通道:优秀团队可获得相关赛题出题单位实习、就职绿色通道;

  • 创业孵化:优秀团队可获得由政府、投资机构投提供的融资、孵化支持;

  • 落地应用:优秀团队可获得由大赛各合作单位提供的项目成果应用、试点机会。

优秀指导老师奖

各赛题一等奖指导老师,及对大赛辅导、宣传、组织提供重要支持的老师可获得。

特别贡献奖

在大赛组织工作中做出突出贡献的个人或单位可获得。

优秀合作伙伴奖

对大赛组织做出重要支持的合作单位可获得。

*注:各赛题奖项设置略有不同,以大赛官网公布的各赛题详情页面内容为准。

组/织/架/构

指导单位苏州市人民政府

主办单位:中国计算机学会

支持单位苏州市吴江区人民政府

承办单位:苏州市吴江区科技局、苏州市吴江区工信局、CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF高性能计算专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会、CCF软件工程专业委员会、易班网、苏州大学未来科学与工程学院、LandInn兰亭、DataFountain数联众创

战略合作:百度、华为

专题赛合作:360未来安全研究院、苏州市相城区人民政府

赛题合作:竹云、达观数据、算能、联通数科、数元灵科技、智慧芽、蚂蚁技术研究院

官方竞赛平台:DataFountain、LandInn兰亭

生态合作媒体CSDN、计算机保研岛(持续更新中)

组/委/会/专/家

百余位专家学者倾力助阵,全力保障大赛工作公正、有序、规范开展,积极推动学术进步、落地技术成果应用,为实现人才培养献力献策。

指导委员会主席

大赛指导委员会为CCF BDCI指导机构,为大赛明确定位及发展方向,推动学术进步、落地技术成果应用、实现人才培养。

  • 梅 宏,中国科学院院士、中国计算机学会理事长

  • 李国杰,中国工程院院士、中科院计算所研究员

  • 倪光南,中国工程院院士、中科院计算所研究员

  • 徐宗本,中国科学院院士、西安交通大学教授

  • 吴建平,中国工程院院士、清华大学教授

  • 陈 纯,中国工程院院士、浙江大学教授

  • 管晓宏,中国科学院院士、清华大学西安交通大学双聘教授

工作委员会主席

大赛工作委员会为CCF BDCI组织执行机构。工作委员会常设赛题委员会、评审委员会、仲裁委员会、国际交流委员会以及创业指导委员会,全力保障大赛工作公正、有序、规范开展。

  • 陈恩红,中国科学技术大学教授、CCF大数据专家委员会副主任

  • 陈学斌,华北理工大学教授、CCF计算机应用专业委员会副主任

  • 程学旗,中科院计算所研究员、CCF大数据专家委员会秘书长

  • 窦志成,中国人民大学教授、CCF大数据专家委员会副秘书长

  • 金 波,公安部第三研究所所长助理、CCF大数据专业委员会常务委员

  • 李 戈,北京大学长聘教授,教育部长江学者,博士生导师,CCF软件工程专委会秘书长

  • 唐前临,公安部网络技术研发中心高级工程师、CCF计算机安全专业委员会秘书长

  • 万小军,北京大学计算机科学技术研究所教授、CCF自然语言处理专业委员会秘书长

  • 张云泉,中科院计算所研究员、CCF高性能计算专业委员会秘书长

(注:按姓名拼音首字母顺序排序)

专家委员会

来自各高校学者、行业专家将参与大赛评审、技术报告等活动,为大赛保驾护航。

敖 翔,中国科学院计算技术研究所副研究员

  • 陈 弢,蚂蚁金服总监

  • 陈文亮,苏州大学/教授

  • 陈颖文,国防科技大学计算机学院

  • 邓 波,中科院空天信息创新研究院总师、研究院

  • 翟季冬,清华大学长聘副教授、博士生导师

  • 杜 一,中国科学院计算机网络信息中心大数据知识工程实验室主任

  • 方 娟,北京工业大学信息学部副主任

  • 冯建周,燕山大学软件工程系党支部书记、教授

  • 高志鹏,北京邮电大学教授、副主任

  • 黄河燕,北京理工大学人工智能研究院院长

  • 贾海鹏,中国科学院计算技术研究所高级工程师

  • 贾伟乐,中科院计算所副研究员

  • 蒋 斌,湖南大学信息科学与工程学院系主任

  • 靳小龙,CCF大数据专家委员会副秘书长、中科院计算技术研究所研究员

  • 李飞飞,阿里巴巴集团副总裁

  • 李光亚,万达信息股份有限公司高级副总裁

  • 李 克,北京联合大学数据科学与大数据技术专业负责人

  • 李浥东,CCF YOCSEF主席、北京交通大学教授

  • 连德富,中国科学技术大学教授

  • 林 波,国家海洋环境预报中心教授级高工

  • 林 政,中国科学院信息工程研究所副研究员

  • 刘向荣,厦门大学信息学院系主任

  • 刘 鑫,国家并行计算机工程技术研究中心研究员

  • 卢惠林,无锡商业职业技术学院计算机应用研究所所长

  • 卢亿雷,白海科技创始人兼CEO

  • 罗圣美,中孚信息股份有限公司规划研究院副院长

  • 骆嘉伟,湖南大学信息科学与工程学院副书记

  • 苗启广,西安电子科技大学计算机科学与技术学院副院长

  • 邱锡鹏,复旦大学教授

  • 任 奎,浙江大学网络空间安全学院院长、计算机科学与技术学院副院长

  • 邵 浩,复星集团AI业务负责人

  • 石 川,北京邮电大学教授、博导

  • 谭光明,中科院计算技术研究所高性能计算机研究中心主任、研究员

  • 唐 卓,湖南大学国家超级计算长沙中心总工、教授

  • 王昊奋,同济大学特聘研究员

  • 王森章,中南大学特聘教授

  • 王志波,浙江大学教授

  • 吴 康,浙江省公安厅反恐怖总队一级技术主管

  • 向 阳,同济大学电子与信息工程学院教授、党委副书记

  • 肖 桐,东北大学教授

  • 谢 坚,竹云科技研发中心总经理

  • 谢娟英,陕西师范大学计算机科学学院教授、博导

  • 杨东日,中国电子信息产业发展研究院中小企业研究所所长

  • 杨 明,南京师范大学教授、博导

  • 印 鉴,中山大学人工智能学院副院长、广东省大数据分析与处理重点实验室主任

  • 袁进辉,北京一流科技有限公司创始人、CEO

  • 曾 艳,杭州电子科技大学/副教授

  • 张琳琳,新疆大学系主任

  • 张伟男,哈尔滨工业大学副教授,计算机学院院长助理

  • 赵东岩,北京大学王选计算机研究所研究员

  • 赵 洲,浙江大学副教授

  • 周 斌,国防科技大学计算机学院国产基础软件工程研究中心副主任,CCF大数据专业委员会委员

  • 朱小飞,重庆理工大学教授

  • 朱效民,山东省齐鲁大数据研究院院长

  • 朱亚东,北京数元灵科技有限公司CEO

  • 祝恒书,百度时代网络技术(北京)有限公司主任数据科学家

    更多专家正在邀请中……

(注:按姓名拼音首字母顺序排序)

报/名/参/赛

大赛面向社会各界开放,不限年龄、国籍,高校、科研院所、企业从业人员均可登录DataFountain(datafountain.cn)官网免费报名参赛。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在跨域推荐系统中,存在某些用户对所购买的物品进行随意评分的情况。由于对物品进行随意评分的用户的数量较少,当该物品的评分数量较多时随意评分对推荐效果的影响较小,但是当该物品的评分数量较少时,随意评分会对推荐效果产生较大的影响。针对这个问题,提出一种基于评分可靠性的跨域个性化推荐方法。该方法针对不同的评分可靠性,为用户设置不同的阈值。当将辅助域的数据向目标域迁移时,如果用户进行评分的某物品的评分数量低于该用户的阈值,则不将该用户对该物品的评分数据迁移到目标域,否则进行迁移,以此减少随意评分对推荐效果的影响。实验结果表明,整体上,与为所有用户设置统一的阈值和不为用户设置阈值的跨域推荐相比,所提方法具有更高的预测评分的准确度。   近几十年来,随着互联网的快速发展,人们能够获取的信息越来越多,但是用户在面对数量庞大、内容丰富的信息的同时,对如何获取自己真正想要的信息存在着困惑,因此,大量以个性化推荐为代表的过滤网络工具应运而生。目前个性化推荐领域大多数研究人员主要研究单领域推荐,如Netflix和Last.fm。单领域推荐往往存在数据稀疏和冷启动两大主要问题,使得用户的个性化推荐效果不理想。如何整合多个不同域中的数据来实现用户精准推荐已成为近来个性化推荐的研究热点。   推荐系统如何根据用户对一类信息(或物品)的喜好,向其推荐其他类型的信息(或物品),被称为跨域推荐。在跨域推荐中存在随意评分的用户,例如,有的用户即使对购物过程不满意,但因为好评返红包等原因仍对物品给出较高的评分;而有的用户即使对购物过程满意,因为心情不好等原因对物品给出较低的评分。当该物品的评分数量较少时,随意评分使得该物品的评分并不能准确表现出用户的偏爱,从而对推荐结果的准确性产生较大的影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值