每天给你送来NLP技术干货!
竞赛
作者:DOTA
来自:炼丹笔记
微信大数据挑战赛
01
赛题简介
本次比赛基于脱敏和采样后的数据信息,对于给定的一定数量到访过微信视频号“热门推荐”的用户,根据这些用户在视频号内的历史n天的行为数据,通过算法在测试集上预测出这些用户对于不同视频内容的互动行为(包括点赞、点击头像、收藏、转发等)的发生概率。
本次比赛以多个行为预测结果的加权uAUC值进行评分,比赛提供训练集用于训练模型,测试集用于评估模型效果,初赛提供百万级训练数据,复赛提供千万级训练数据。
具体比赛介绍页面:https://algo.weixin.qq.com/problem-description
02
TOP解决方案
微信视频号推荐算法获奖方案汇总
RecSys2020大赛
01
赛题简介
RecSys2020挑战的重点是在动态环境中预测tweet参与度的真实任务。目标是基于异构输入数据,预测目标用户对一组tweet进行不同类型参与(如回复、转发和评论转发)的概率。Twitter将发布约2亿条公开tweets的大型公共数据集,该数据集通过2周内的降采样获得,其中包含参与特征(engagement)、用户特征和tweet特征。
02
TOP解决方案
RecSys2020大赛第一名方案
ACM Twitter RecSys Challenge
01
赛题简介
Twitter上呈现的是正在发生的事情,也是人们现在谈论的话题。在Twitter上,随着对话的展开,生活变得生动起来,向你展示故事的方方面面。从突发新闻和娱乐到体育、政治和日常兴趣,当世界上发生的事情,它们首先发生在推特上。
在这个平台上,用户发布和参与(以喜欢、回复、转发和评论转发的形式)被称为“Tweets”的内容。这一挑战旨在评估新的大规模预测不同参与率的算法,并推动推荐系统的最新发展。随着Top-K推荐领域的成功和进步,我们的目标是通过发布最大的真实世界数据集来预测用户参与度,从而鼓励开发新的方法。该数据集包括大约2亿次公众参与,以及用户和参与特征,这些活动持续2周,包含公众互动(如回复、转发和评论转发),以及从公众关注图中随机抽样的1亿个pseudo negatives。在对后一批tweet进行抽样时,我们特别注意保护用户隐私。
02
TOP解决方案
Rank4: https://github.com/sumitsidana/recsys_challenge_2020
KDD Cup 2020 Debiasing
01
赛题简介
本赛题解决的偏差消除问题,大多数电子商务和零售公司利用海量数据在其网站上实现搜索和推荐系统,从而来促进销售,随着这样的趋势发展以及流量的大量增加,对推荐系统产生了各式各样的挑战。其中一个值得探索的挑战是推荐系统的人工智能公平性(Fairness)问题,即如果机器学习系统配备了短期目标(例如短期的点击、交易),单纯朝短期目标进行优化将会导致严重的“马太效应”,即热门的商品受到更多的关注,冷门商品则愈发的会被遗忘,产生了系统中的流行度偏差,并且大多数模型和系统的迭代依赖于页面浏览(Pageview)数据,而曝光数据是实际候选中经过模型选择的一个子集,不断地依赖模型选择的数据与反馈再进行训练,将形成选择性偏差。
上述流行度偏差与选择性偏差不断积累,就会导致系统中的“马太效应”越来越严重。因此,人工智能公平性问题对于推荐系统的不断优化至关重要,并且这将对推荐系统的发展以及生态环境产生深远的影响。
02
TOP解决方案
Rank1: https://github.com/aister2020/KDDCUP_2020_Debiasing_1st_Place
Rank6: https://github.com/ChuanyuXue/KDDCUP-2020
Rank10: https://github.com/xuetf/KDD_CUP_2020_Debiasing_Rush
KDD Cup 2020 Multimodalities Recall
01
赛题简介
多模态召回赛题由阿里巴巴达摩院智能计算实验室发起并组织,关注电商行业中的多模信息学习问题。2019年,全世界线上电商营收额已经达到3530亿美元。据相关预测,到2022年,总营收将增长至6540亿美元。大规模的营收和高速增长同时预示着,消费者对于电商服务有着巨大的需求。跟随这一增长,电商行业中各种模态的信息越来越丰富,如直播、博客等等。怎样在传统的搜索引擎和推荐系统中引入这些多模信息,更好地服务消费者,值得相关从业者深入探讨。
本赛道提供了淘宝商城的真实数据,包括两部分,一是搜索短句(Query)相关,为原始数据;二是商品图片相关,考虑到知识产权等,提供的是使用Faster RCNN在图片上提取出的特征向量。两部分数据被组织为基于Query的图片召回问题,即有关文本模态和图片模态的召回问题。
02
TOP解决方案
Rank1: https://github.com/steven95421/KDD_WinnieTheBest
Rank8: https://github.com/miziha-zp/KDD2020_mutilmodalities
Rank10: https://github.com/dingyh0626/KDD-Cup-Multimodalities-Recal
CIKM 2019 E-Commerce AI Challenge
01
赛题简介
用户兴趣高效检索聚焦在解决大规模推荐中用户兴趣检索的问题上,任务要求在很短时间内从千万级的商品库 C 中为用户挑选出最可能感兴趣的 k 个商品。复赛还要求为每个用户进行推荐时的时间复杂度小于 O(n)。其中,k<<n,n=|C|。此外,复赛提交的方案需在一个 8 核 60G P100 的 GPU 容器中对 6 万线上用户进行推荐,限时 1 小时。不仅对复杂度有要求,对内存、CPU 等资源也有限制。数据集包括用户行为文件、用户信息文件与商品信息文件。用户信息包含用户 ID、性别、年龄与购买力,商品信息包含商品 ID、类目 ID、店铺 ID 与品牌 ID(若有商品价格,有望提高推荐效果),用户行为涉及 16 天(由某个周五开始)的用户对商品的行为日志。
02
TOP解决方案
Rank1: ChuanyuXue/CIKM-2019-AnalytiCup
Rank10: https://github.com/kupuSs/CIKM-CUP-2019-track2-rank10
ACM RecSys Challenge
01
赛题简介
挑战的目标是在会话中使用用户信号来检测用户的意图,并更新提供给用户的住宿建议。给定用户在我们网站上的交互数据集和他们交互的项目的元数据,参与者的任务是预测在会话的后期有哪些项目被点击。
02
TOP解决方案
Rank2: layer6ai-labs/RecSys2019
Rank4: https://github.com/rosetta-ai/rosetta_recsys2019
Rank7: mustelideos/recsys-challenge-2019
WSDM KKBox's Music Recommendation
01
赛题简介
预测用户在一个时间窗口内第一个可观察到的收听事件被触发后,重复听一首歌的机会。
02
TOP解决方案
Rank1: lystdo/Codes-for-WSDM-CUP-Music-Rec-1st-place-solution
Rank3: VasiliyRubtsov/wsdm_music_recommendations
IJCAI 阿里妈妈搜索广告转化预测
01
赛题简介
比赛题目是"搜索广告转化预测",需要通过人工智能技术构建预测模型预估用户的购买意向,即给定历史广告点击相关的用户(user)、广告商品(ad)、检索词(query)、上下文内容(context)、商店(shop)等五类信息的条件下预测接下来日期广告产生购买行为的概率(pCVR)。
结合淘宝平台的业务场景和不同的流量特点,官方定义了以下两类挑战:
(1)日常的转化率预估
(2)特殊日期的转化率预
02
TOP解决方案
Rank1: plantsgo/ijcai-2018
Rank2: https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution
Rank3: luoda888/2018-IJCAI-top3
Rank4: fanfanda/ijcai_2018
2020 腾讯广告算法大赛
01
赛题简介
本届算法大赛的题目来源于一个重要且有趣的问题。众所周知,像用户年龄和性别这样的人口统计学特征是各类推荐系统的重要输入特征,其中自然也包括了广告平台。这背后的假设是,用户对广告的偏好会随着其年龄和性别的不同而有所区别。许多行业的实践者已经多次验证了这一假设。然而,大多数验证所采用的方式都是以人口统计学属性作为输入来产生推荐结果,然后离线或者在线地对比用与不用这些输入的情况下的推荐性能。本届大赛的题目尝试从另一个方向来验证这个假设,即以用户在广告系统中的交互行为作为输入来预测用户的人口统计学属性。我们认为这一赛题的“逆向思考”本身具有其研究价值和趣味性,此外也有实用价值和挑战性。例如,对于缺乏用户信息的实践者来说,基于其自有系统的数据来推断用户属性,可以帮助其在更广的人群上实现智能定向或者受众保护。与此同时,参赛者需要综合运用机器学习领域的各种技术来实现更准确的预估。
主办方将为参赛者提供一组用户在长度为 91 天(3 个月)的时间窗口内的广告点击历史记录作为训练数据集。每条记录中包含了日期(从 1 到 91)、用户信息(年龄,性别),被点击的广告的信息(素材 id、广告 id、产品 id、产品类目 id、广告主id、广告主行业 id 等),以及该用户当天点击该广告的次数。测试数据集将会是另一组用户的广告点击历史记录。
提供给参赛者的测试数据集中不会包含这些用户的年龄和性别信息。本赛题要求参赛者预测测试数据集中出现的用户的年龄和性别,并以约定的格式提交预测结果。
02
TOP解决方案
Rank1: https://github.com/guoday/Tencent2020_Rank1st:
Rank5: zhangqibot/Tencent2020_Top5
跨境电商智能算法大赛
01
赛题简介
通过用户历史订单数据,预测用户下一次购买的商品。
02
TOP解决方案
Rank1: https://github.com/RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge
阿里巴巴大数据智能云上编程大赛
01
赛题简介
阿里云计算平台深耕大数据以及人工智能领域,经过多年锤炼,推出了MaxCompute、Dataworks、PAI、EMR等多款大数据相关领域云产品。智联招聘作为国内大型的综合性招聘平台,二十多年行业深耕,为海量的求职者创造就业机会,帮助企业找到心仪的人才。本次比赛将由智联提供相关比赛数据和评估标准,选手需要使用阿里云计算平台的相关产品完成赛题。
本次大赛要求参赛者根据智联招聘抽样的经过脱敏的求职者标签数据、职位信息、及部分求职者行为信息、用人单位反馈信息,训练排序模型,对求职者的职位候选集进行排序,尽可能使得双端都满意的职位(求职者满意以及用人单位满意)优先推荐。本次比赛里,假定对于曝光给求职者的职位候选集里,假如求职者感兴趣会产生浏览职位行为,浏览职位后,如果求职者满意会产生主动投递行为。用人单位收到求职者主动投递的简历后会给出是否满意的反馈信号。
02
TOP解决方案
Rank1: https://github.com/hydantess/TianChi_zhilianzhaopin
Rank4: juzstu/TianChi_ZhiLianZhaoPin
BDCI 面向电信行业存量用户的智能套餐个性化匹配模型
01
赛题简介
电信产业作为国家基础产业之一,覆盖广、用户多,在支撑国家建设和发展方面尤为重要。随着互联网技术的快速发展和普及,用户消耗的流量也成井喷态势,近年来,电信运营商推出大量的电信套餐用以满足用户的差异化需求,面对种类繁多的套餐,如何选择最合适的一款对于运营商和用户来说都至关重要,尤其是在电信市场增速放缓,存量用户争夺愈发激烈的大背景下。针对电信套餐的个性化推荐问题,通过数据挖掘技术构建了基于用户消费行为的电信套餐个性化推荐模型,根据用户业务行为画像结果,分析出用户消费习惯及偏好,匹配用户最合适的套餐,提升用户感知,带动用户需求,从而达到用户价值提升的目标。
套餐的个性化推荐,能够在信息过载的环境中帮助用户发现合适套餐,也能将合适套餐信息推送给用户。解决的问题有两个:信息过载问题和用户无目的搜索问题。各种套餐满足了用户有明确目的时的主动查找需求,而个性化推荐能够在用户没有明确目的的时候帮助他们发现感兴趣的新内容。
此题利用已有的用户属性(如个人基本信息、用户画像信息等)、终端属性(如终端品牌等)、业务属性、消费习惯及偏好匹配用户最合适的套餐,对用户进行推送,完成后续个性化服务。
02
TOP解决方案
Rank1: PPshrimpGo/BDCI2018-ChinauUicom-1st-solution
Rank2: PandasCute/2018-CCF-BDCI-China-Unicom-Research-Institute-top2
rank6: ZengHaihong/2018_CCF_BDCI_ChinaUnicom_Package_Match_Rank6
BDCI 商场中精确定位用户所在店铺
01
赛题简介
随着互联网移动支付的迅速普及,我们享受到越来越多的生活便利。如当您走入商场的某家餐厅时,手机会自动弹出该餐厅的优惠券;当您走入商场服装店时,手机可以自动推荐这家店里您喜欢的衣服;在您路过商场一家珠宝店时,手机可以自动提示您想了很久的一款钻戒已经有货了;离开商场停车场时,手机在您的许可下可以自动交停车费。这些您所享受的贴心服务都离不开背后大数据挖掘和机器学习的支持。在正确的时间、正确的地点给用户最有效的服务,是各大互联网公司智能化拓展的新战场。
本赛题目标为在商场内精确的定位用户当前所在商铺。在真实生活中,当用户在商场环境中打开手机的时候,存在定位信号不准、环境信息不全、店铺信息缺失、不同店铺空间距离太近等等挑战,因此如何精确的判断用户所在商铺是一个难题。
本次大赛我们将提供在2017年8月份大概100家商场(复赛为2017年7-8月大概500家商场)的详细数据,包括用户定位行为和商场内店铺等数据(已脱敏),参赛队伍需要对其进行数据挖掘和必要的机器学习训练。另外,我们会提供2017年9月份的商场内用户数据来做评测,检测您的算法是否能准确的识别出当时用户所在的店铺。
02
TOP解决方案
Rank1: https://github.com/drop-out/Tianchi-Wifi-Positioning
Rank7: totoruo/TianChi-Shop-Location-Competition
Rank9: longxiong2016/Store_positioning
视频点击预测大赛
01
赛题简介
移动互联网的快速发展,催生了海量视频数据的产生,也为用户提供了类型丰富的视频数据类型。面对如何从海量视频数据类型中选择用户喜欢的类型的这一难题,作为一家拥有海量视频素材和用户行为的数据公司,希望通过用户行为数据,用户特征,以及视频特征,可以在充足数据基础上精准的推荐给用户喜欢的视频类型。
本次竞赛的目的是以用户的视频行为数据为基础,构建推荐模型,参赛队伍则需要搭建个性化推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐用户感兴趣的内容,提高用户在数据集上的点击行为。
02
TOP解决方案
Rank3: LogicJake/tuling-video-click-top3
Rank4: biaobiao2/video-click-top4
Rank6: https://github.com/ljhzxc/turingtopia_video_ctr
Rank7: zavierhan/turing_video_ctr_top7
Rank9: Tersaiz/Turingtopia_Videos_CTR
个性化推荐算法挑战赛
01
赛题简介
本次比赛选取了一批用户(candidate.txt),以及一批候选资讯内容数据(news_info.csv)用以推荐给用户。同时提供了这批用户在某3天(记为第N-2天、第N-1天和第N天)对资讯内容的多种行为数据,包括点击、完整阅读、评论、收藏、分享等,作为训练数据。
比赛目标是针对这批用户(candidate.txt)和候选资讯内容数据(news_info.csv),预测每个用户在第4天(记为第N+1天)会产生行为(任何行为类型都算)的资讯列表。每个用户必须推荐5个最可能有行为的资讯且不可重复,否则推荐结果视为无效。
02
TOP解决方案
Rank6: https://github.com/hecongqing/2017-daguan-competition
看山杯专家发现算法大赛
01
赛题简介
比赛将提供知乎的问题信息、用户画像、用户回答记录,以及用户接受邀请的记录,要求选手预测这个用户是否会接受某个新问题的邀请。
1、问题信息。包括<问题id、问题创建时间、问题的话题、问题的文本、问题的描述>等。
2、用户的回答。包括<回答id、问题id、作者id、回答的文本、回答时间、点赞数、收藏数、感谢数、评论数>等。
3、用户人画像数据。包括<用户id、性别、活跃频次、关注话题、长期兴趣、盐值>等。
4、<topic、token(词)、单字 64维 embedding >数据。
5、最近一月的邀请数据包括<问题id、用户id、邀请时间、是否回答>。
02
TOP解决方案
Rank3: https://github.com/Travisgogogo/BAAI-ZHIHU-2019
Rank4: https://github.com/VoldeMortzzz/2019Baai-zhihu-Cup-findexp-4th
Rank6: https://github.com/liuchenailq/zhihu-findexp
Rank7: jt120/BAAI-zhihu-2019
Santander Product Recommendation
01
赛题简介
准备好为你的第一套房子付首付了吗?或者想要杠杆化你的房产权益?为了支持一系列金融决策的需求,桑坦德银行(Santander Bank)通过个性化产品推荐向客户提供贷款。在桑坦德银行目前的体系下,只有一小部分客户得到了许多推荐,而其他许多客户很少看到任何推荐导致客户体验不均衡。在第二场竞争中,桑坦德银行向Kagglers发出挑战,要求他们根据过去的行为和类似客户的行为,预测现有客户下个月将使用哪些产品。桑坦德银行拥有更有效的推荐体系,能够更好的满足所有客户的个性化需求,无论客户身在何处,都能确保客户的满意。
02
TOP解决方案
Rank2: ttvand/Santander-Product-Recommendation
Rank8: yaxen/santander-product-recommendation-8th-place
2018 腾讯广告算法大赛
01
赛题简介
Lookalike 技术,设计基于种子用户画像和关系链寻找相似人群,即根据种子人群的共有属性进行自动化扩展,以扩大潜在用户覆盖面,提升广告效果。具体来讲,种子包里包含有广告主提交的一批已知种子用户,可以当作机器学习问题中的正样本。广告平台中有海量的非种子用户,也有大量的广告投放历史数据,可以帮助生成负样本。有了正负样本后,相似人群拓展就变为了一个机器学习问题中的二分类问题。在线上使用中,广告平台可以依据二分类模型算出的后验概率P(y|x) 来判定候选用户与种子包里用户的相似程度,最后将相似度最高的一批候选用户作为最终的结果。由于Lookalike相似人群扩展和广告CTR有些类似,所以我们沿用了很多阿里妈妈搜索广告转化预测的特征和模型。
02
TOP解决方案
Rank3: https://github.com/DiligentPanda/Tencent_Ads_Algo_2018
Rank6: nzc/tencent-contest
Rank7: https://github.com/guoday/Tencent2018_Lookalike_Rank7th:
Rank9: ouwenjie03/tencent-ad-game
Rank10: https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th
推荐系统特征工程汇总
1. 类别特征(Categorical)
常见的策略有三种:
Target Encoding
Count Encoding
Categorifying
2. 非结构化的列表
常采用的特征工程策略为:
Target Encoding
Count Encoding
Categorifying
3. 数值特征
Normalization (mean/std, min/max, log-based, Gauss Rank)
幂转化(Power transformer)
分箱(Binning)
4. 时间戳特征
抽取月/天/星期/是否周末/小时/分钟/秒等特征;
对时间间隔进行Target encoding
对时间间隔进行Count Encoding
基于实践区进行Normalize
5. 时间序列
基于上一次时间的时间
时间之间的差值(lag特征)
在过去1min/5min/30min发生的事件
6. 文本
抽取关键词;
TF-IDF;
语言embedding
长度/质量/复杂度(Complexity)
7. 图像
图像Embedding;
分辨率;
质量;
光谱;
8. 社交图
链接分析
9. 地理位置
距离POI的距离;
周边的特征;
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!