赛后复盘 - DataCastle 科大讯飞AI营销算法大赛

最近这个月参加了DataCastle上的科大讯飞AI营销算法大赛,最后的名次是97 / 1086,没能进入复赛(要求前50名)。其实也没什么好失落的,已经尽力了,这就是我现阶段的真实水平。最大的遗憾,应该是比赛结束前三天才知道这个比赛竟然有交流用的QQ群!感觉错过了一个亿!这段时间里总是在想,DataCastle这个平台怎么做得这么差,竞赛圈里没有人发帖,没有交流,只能靠自己和队友埋头苦干。后来才知道原来大家天天都在群里交流心得。。唉,生活就是遗憾的艺术吧。

Anyway,还是有一些收获的,写篇博客复盘一下。等复赛的最后结果开源之后,应该会有更多的收获吧,到时候再更新一下。


一些自问自答

  • 似乎这一个月里其实也没做多少内容?

是的。我原本以为自己投入了很多的精力,做了很多事情,今天写完博客之后才发现,其实也没做什么。可能是在给将来积累知识和经验吧,终究是能够用得上的,避免今后掉进相同的坑里。

  • 有没有学到什么关于广告业务的知识?

并没有。我到今天都不知道数据特征里的创意(creative)和一级频道(f_channel)到底指的是什么,而且这个比赛的所有变量都是脱敏过后的,能看到的都是一堆乱码,都是诸如ag_2100040,724495373286, B4734117F3 这样的数据,场景的代入感很差。我也不必要知道某个变量是什么意思,知道它是categorical feature还是numeric feature就够了。

我并不知道该怎么样把广告的点击率给提升上去,我所做的事情,更多是找到一种判断方法,判断什么样的广告点击率高,什么样的广告点击率低,仅此而已。

  • 写代码的水平有没有提升?

有提升,但提升不大。虽然我写的代码有一千多行,但都很简单,就是些常见的pandas的操作罢了。要说有什么新的,应该是学了一下python中的try..except...以及continuenext等语句的写法。之前参加kaggle的home credit default risk竞赛的时候,接触到了一些大型的工程,十个py文件,四千多行代码,层层叠叠的复杂依赖关系,这次比赛里没有用到,因为数据量小,我觉得没啥必要,徒增麻烦。

  • 对特征工程有什么新的理解?

似乎生成新的特征并不需要对实际业务有多么深刻的理解,常见的套路就是求各种各样的统计量,count/ unique/ sum/ mean/ var等等,如此种种,感觉就是暴力一把梭,把所有的可能都给枚举出来,穷尽各种可能,然后用高性能的机器去遍历,寻找出好的特征。当然,我的这个理解可能是错的,因为我并不擅长创造新特征,我的想象力太差了,希望这个比赛最终结束之后能有新的观点吧。

  • 为什么要参加比赛?
    • 可以把平时学习的东西综合应用到实际中,能强化理解,能锻炼自己;
    • 有利于自己实现转行,打比赛的时候别人才不管你是什么学科背景的呢,提交分数高才是王道;
    • 比赛的数据都是来自于真实世界、真实业务场景下的宝贵的真实数据,我对这样的数据没有抵抗力,我想触碰真实世界,不想在模拟的数据集里闹腾;
    • 和选手们进行交流和讨论,结交数据科学圈内的新朋友,积累人脉,逐步实现转型;
    • 提交成绩和排名榜的更新都是实时的,就像是《头号玩家》的排名榜,我觉得很刺激,很有趣,像是大家在一块儿打游戏;

  • 觉得自己在数据科学这块领域中的核心竞争力是什么?

暂时还没有。硬要说有的话,大概就是自己对于数据科学的热情和对未知事物的好奇心吧。

  • 参加比赛有没有觉得沮丧的时候?

有,很多很多。做的实验有很多都是失败的,经常实现不了预期的效果,成绩长期没有提升。最沮丧的时候是发现自以为学到了很多新知识,把成果拿出来和别人PK,这才发现原来自己是在自娱自乐。

  • 下一步有什么打算?

还没想好。不过不太想做数据挖掘类(回归和分类)的比赛了,想尝试一下深度学习(计算机视觉)方向的比赛。数据挖掘比赛做久了,感觉什么都是玄学,感觉做什么都有data leakage,很多东西都难以解释难以理解,有种flying blind的感觉。


比赛内容

来自官方的背景介绍:科大讯飞AI营销云在高速发展的同时,积累了海量的广告数据和用户数据,如何有效利用这些数据去预测用户的广告点击概率,是大数据应用在精准营销中的关键问题,也是所有智能营销平台必须具备的核心技术。本次大赛提供了讯飞AI营销云的海量广告投放数据,参赛选手通过人工智能技术构建预测模型预估用户的广告点击概率,即给定广告点击相关的广告、媒体、用户、上下文内容等信息的条件下预测广告点击概率。希望通过本次大赛挖掘AI营销算法领域的顶尖人才,共同推动AI营销的技术革新。

简单来说就是道两分类的机器学习题,target变量为用户是否点击该广告(1为点击,0为未点击)。初赛的数据量级是,训练集100万样本,测试集4万样本,特征一共有34个。这份比赛数据比较特别的一点是,几乎所有的特征都是

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
光电设计大赛路径规划算法可以采用动态规划算法或A*算法。动态规划算法是一种求解多阶段决策问题最优解的数学方法,它将多阶段决策问题转化为一系列单阶段最优化问题,通过逆向寻优和正向求解的方式来确定最佳路径。该算法的核心思想是最优策略的子策略必然也是最优的。\[1\] A*算法是一种启发式搜索算法,结合了贪心算法和狄克斯特拉算法,是一种求解最短路径的有效方法。它通过定义路径优劣评价公式来判断路径的优劣,其中包括实际代价和最佳路径的估计代价。A*算法使用两个状态表,即openList表和closeList表,通过遍历地图栅格化、确定起始点和目标点、定义路径优劣判断标准等步骤来寻找最短路径。\[2\] 在光电设计大赛中,路径规划算法可以根据具体的需求和场景选择合适的算法。动态规划算法适用于多阶段决策问题,可以考虑当前状态和后续发展来确定最佳路径。而A*算法则适用于静态路网中求解最短路径的问题,可以通过启发式搜索来快速找到最优解。根据具体的赛题要求和设计需求,可以选择合适的算法进行路径规划。\[1\]\[2\] #### 引用[.reference_title] - *1* [智能汽车路径规划学习-动态规划算法、A*算法](https://blog.csdn.net/m0_51607165/article/details/124007028)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [2021全国大学生电子设计竞赛F题(智能送药小车)国一赛后总结](https://blog.csdn.net/m0_46493410/article/details/122393794)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值