
AI/比赛
文章平均质量分 79
KG/比赛任务
u013250861
这个作者很懒,什么都没留下…
展开
-
万创杯”中医药天池大数据竞赛——中医文献问题生成挑战
本次标注数据源来自中医药领域文本,包括【黄帝内经翻译版】、【名医百科中医篇】、【中成药用药卷】、【慢性病养生保健科普知识】四个主要来源,共标注 13000对(问题、文档、答案),来源于5000篇文档,每篇文档由人工标注产生1~4对(问题, 答案)对。3500篇语料将开放出来用做训练数据,750篇语料开放出来用于初赛阶段评估,剩余的750篇测试数据用于决赛阶段的评测,不再开放下载,进入决赛的选手需要按照天池大赛官方要求提交模型到天池运行平台进行在线测评。中的文本中的连续片段。原创 2023-08-06 22:43:31 · 317 阅读 · 0 评论 -
CCKS2023 开放环境下知识图谱构建与补全评测任务二:归纳式知识图谱关系推理
测试集中的实体都是训练集中没见过的新实体。对于每一个需要被测试的查询三元组,数据会给出需要被预测尾实体的头实体和关系(“head_rel”),以及尾实体的候选集合(“tails”),模型需要给出候选尾实体的排序,越有可能是真实的尾实体,排序越靠前。根据问题定义,测试数据集中的实体都是训练阶段没有见过的,所以测试集中实体编号和训练集实体编号无法对应,是单独重新编号的,而测试集中关系编号是可以和训练集对应的。在查询集中,给定一个头实体关系对(h, r),以及相应的尾实体的候选集合,模型输出候选集合的排序。原创 2023-06-26 14:24:09 · 644 阅读 · 0 评论 -
AI比赛-三元组抽取:CCKS2023 开放环境下的知识图谱构建与补全评测任务一:指令驱动的自适应知识图谱构建
代码及其文档需打包成一个文件(tar,zip,gzip,rar等均可),用"code.指令KGC.参赛队伍名称"命名,要求提交所有的程序代码及相关的配置说明,确保程序能够正确运行,且所得结果与复赛结果相符。文件每行是一个json串,包含"id","cate","input","output"、"kg"字段。知识图谱补齐的含义是,在输入miss_input(input中缺失了一段文字,input仍然通顺)和instruction的情况下,模型仍然能够补齐缺失的三元组,输出output。原创 2023-06-11 21:21:16 · 1678 阅读 · 6 评论 -
AI-比赛-语义解析:首届中文NL2SQL挑战赛
数据库中存储了海量的高价值数据,用户可以通过执行SQL与结构化数据直接进行交互,也可以通过设计好的交互界面进行交互。但SQL的使用难度限制了非技术用户,交互界面的设计也限制了使用的界限。通过自然语言直接与结构化数据进行交互,可以充分利用结构化数据的价值,为用户带来体验和效率的提升。追一科技主攻深度学习和自然语言处理,致力于以业界最领先的AI解决方案、产品和服务为客户和用户创造价值,共创未来人类美好生活。我们希望通过NL2SQL赛题,拉近用户与结构化数据间的距离,实现人机交互体验升级。竞赛题目。原创 2023-04-11 12:41:22 · 771 阅读 · 0 评论 -
AI比赛-文本分类:第五届“达观杯” 基于大规模预训练模型的风险事件标签识别
排行榜显示A榜成绩,竞赛结束后2小时切换成B榜单。风险事件示例从宏观、行业、企业等不同层面对风险进行了分类,通过标签将事件进行标引可以从事件的角度对各方面的风险情况进行追踪,并且构建事件之间的内在联系。2.无标注文本:大规模无标注的文本规模是亿级,可供选手选择用来进行语言模型训练,多行格式,每行为json表示,包含title和content两个字段,采用统一的脱敏编码形式;3.测试集:风险事件分类的测试集合,csv格式(表头包含“id”、“text”,分别对应文本ID和文本内容),采用统一的脱敏编码形式。原创 2023-03-23 16:41:34 · 275 阅读 · 0 评论 -
AI比赛-三元组抽取:工业知识图谱关系抽取-高端装备制造知识图谱自动化构建
CCF大数据与计算智能大赛(CCF Big Data & Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。大赛面向重点行业和应用领域征集需求,以前沿技术与行业应用问题为导向,以促进行业发展及产业升级为目标,以众智、众包的方式,汇聚海内外产学研用多方智慧,为社会发现和培养了大量高质量数据人才。原创 2023-03-02 21:57:29 · 1507 阅读 · 0 评论 -
AI比赛-NER:“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战
3、初赛截止后(10月21日20:00最后一次测评),组委会将进行排名前100名参赛队伍的入围审核,前100名团队将需要提交代码进行审核,组委会将按照比赛规则要求识别人工标注、代码高度重合、直接使用开源代码的队伍,无实际算法贡献,并终止上述团队参赛,晋级空缺名额后补。2、初赛阶段系统每天提供2次的评测机会,系统排行时间为10:00、20:00,每天更新排行榜,按照评测指标从高到低排序(排行榜将选择选手在本阶段的历史最优成绩进行排名展示,不做最终排名计算)。季军:3支队伍,每支队伍奖金玖仟,颁发获奖证书。原创 2023-02-20 09:09:39 · 892 阅读 · 0 评论 -
第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测【天池】
数据集包含进料浓度C_{A,f}(dv1)CA,f(dv1),进料温度T_{f}(dv2)Tf(dv2), 冷却水温度T_{C}(mv1)TC(mv1), 反应釜温度T(cv1)T(cv1) 和反应釜浓度C_{A}(cv2)CA(cv2) 共五个字段,其中进料浓度C_{A,f}CA,f和进料温度T_{f}Tf为系统的扰动变量,冷却水温度T_{C}TC为反应釜的操作变量,反应釜浓度C_{A}CA和反应釜温度TT为被控变量,同时也是预测赛题的预测目标。1)预测数据集(数据集需要以规定的。原创 2023-02-18 22:05:14 · 755 阅读 · 0 评论 -
CCKS2022:通用信息抽取【千言】
本赛事是千言多形态信息抽取的全新升级,不局限于传统的单任务信息抽取的评测范式,而是将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方法在面对新的、未知的信息抽取任务与范式时的适应与迁移能力,从而满足当下信息抽取领域快速迭代、快速迁移的实际需求,更贴近实际业务应用。信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域。将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方法在面对新的、未知的信息抽取任务与范式时的适应与迁移能力。原创 2023-02-18 17:01:43 · 905 阅读 · 0 评论 -
天池比赛:乘用车零售量预测
5、第二阶段(2月26日-2月27日), 系统每天进行1次评测和排名,评测开始时间为每天10:00,按照评测指标从高到低进行排序更新排行榜;4、第一阶段(1月15日-2月25日),系统每天进行1次评测和排名,评测开始时间为每天10:00,按照评测指标从高到低进行排序更新排行榜;4、第一阶段(3月1日-3月12日),系统每天进行1次评测和排名,评测开始时间为每天10:00,按照评测指标从高到低进行排序更新排行榜;1、参赛队伍12月25日12:00可下载数据,并在本地调试算法,提交结果。原创 2023-02-17 20:03:49 · 199 阅读 · 0 评论 -
AI比赛-推荐系统(一)-新闻推荐01:赛题理解、数据分析【天池】
本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第五场 —— 零基础入门推荐系统之新闻推荐场景下的用户行为预测挑战赛。赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。通过这道赛题来引导大家了解推荐系统中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。原创 2023-01-19 17:53:29 · 1450 阅读 · 0 评论 -
AI比赛-推荐系统(一)-新闻推荐02:训练item词向量【每篇新闻文章对应一个词向量】【word2vec:将每个用户点击的新闻文章序列作为输入(类似文本序列),训练出每篇文章的向量表示】【天池】
安装gensim,使用gensim中的word2vec模型。原创 2023-01-29 02:03:15 · 297 阅读 · 0 评论 -
AI比赛-推荐系统(一)-新闻推荐03:多路召回【用不同策略分别召回部分候选集,然后把候选集混在一起供后续排序模型使用】【①、YoutubeDNN双塔召回;②、基于物品召回;③、基于用户召回】【天池】
所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。上图只是一个多路召回的例子,也就是说可以使用多种不同的策略来获取用户排序的候选商品集合,而具体使用哪些召回策略其实是与业务强相关的 ,针对不同的任务就会有对于该业务真实场景下需要考虑的召回规则。例如新闻推荐,召回规则可以是“热门新闻”、“作者召回”、“关键词召回”、“主题召回“、”协同过滤召回“等等。原创 2023-01-29 02:07:45 · 1070 阅读 · 0 评论 -
AI比赛-推荐系统(一)-新闻推荐04:特征工程【制作特征和标签转成监督学习,用于排序层】【特征:①各用户的各历史点击文章较于标签文章(最后点击的)的对应特征的相对值、统计量;②用户本身的偏好统计量】
构造监督数据集的思路, 根据召回结果, 我们会得到一个{user_id: [可能点击的文章列表]}形式的字典。我们已经得到了每个用户及点击候选文章的两列的一个数据集, 而我们的目的是要预测最后一次点击的文章, 比较自然的一个思路就是和其最后几次点击的文章产生关系, 这样既考虑了其历史点击文章信息, 又得离最后一次点击较近,因为新闻很大的一个特点就是注重时效性。构造特征的思路是这样, 我们知道每个用户的点击文章是与其历史点击的文章信息是有很大关联的, 比如同一个主题, 相似等等。原创 2023-02-03 00:22:51 · 256 阅读 · 0 评论 -
AI比赛-推荐系统(一)-新闻推荐05:排序模型【LightGBM模型、DIN模型】
通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。原创 2023-02-03 00:33:04 · 721 阅读 · 0 评论 -
AI比赛-推荐系统(一)-新闻推荐06:模型融合【①、加权融合(读取多个模型的排序结果,投票);②、Staking(将模型的输出结果再使用一个简单模型进行预测)】
得到了最终的排序模型输出的结果之后,还选择了两种比较经典的模型集成的方法:原创 2023-02-03 00:35:57 · 178 阅读 · 0 评论 -
YoutubeDNN TypeError:Could not build a TypeSpec for <KerasTensor: shape=(None, 16) dtype=float32
【代码】YoutubeDNN TypeError:Could not build a TypeSpec for <KerasTensor: shape=(None, 16) dtype=float32。原创 2023-01-24 13:46:13 · 800 阅读 · 0 评论 -
AI比赛-语音识别(一):食物声音识别【天池】
第一阶段(4月6日-5月31日)4月6日开始,每天提供2次的评测机会,提交后将进行实时评测;新人赛的目的主要是为了更好地带动处于初学者阶段的新同学们一起玩起来,因此,我们鼓励所有选手,基于赛题发表notebook分享,内容包含但不限于。第二阶段(6月1日19:00-22:00)系统将在6月1日19:00提供测试数据,参赛队伍需要再次下载数据文件,本阶段提供2次评测机会,5月31日12:00第一阶段提交截止,未产出成绩队伍或未按要求完成实名认证队伍,将被取消第二阶段的参赛资格。长期赛(2021年7月~)原创 2023-01-19 17:55:11 · 647 阅读 · 0 评论 -
天池-2022:CCKS2022 面向数字商务的知识图谱评测任务一:商品常识知识显著性推理
蕴含关系代表人物到场景的关系,具体表示为人物_蕴含_场景,比如(高中生,人物_蕴含_场景,高考),头实体和尾实体顺序不能调换。适用关系代表品类到人物、场景的关系,具体表示为品类_适用_场景、品类_适用_人物,比如(跑步鞋,品类_适用_场景,跑步),关系头实体和尾实体顺序不能调换。搭配关系代表品类之间的关系,具体表示为品类_搭配_品类,比如(鱼竿,品类_搭配_品类,鱼饵),此类关系头实体和尾实体顺序可以调换。显著性常识是指:当被问及一个概念,如跑步,人容易直接联想到的包含该概念的常识,如跑步需要跑步鞋。原创 2022-09-13 18:03:09 · 447 阅读 · 0 评论