这是在图灵联邦社区分享的一期,分别从方法论(思考维度)和套路(tricks)两方面展开,其中涉及到机器学习的方方面面,这里要感谢鹏哥在李开复deepcamp上的分享ppt,里面有一些拾人牙慧。其中就两种比赛讲了一些速推套路,分别是套路很集中的CTR和文本分类。效果就是,你看了这个,学会套路,拿个国内CTR套路赛前10完全没问题,kaggle银牌完全没问题。其实CV的比赛也是如此,有机会可以请seutao来讲一讲。
不过说实话trick是最不值钱的,一学就会,但是大家都藏着掖着,毕竟说出来就不值钱了。思考问题的角度比较重要,防止你漏掉一些东西,然后可以发现一些新的东西。其中有个特别简单的,关于指标优化,KDD CUP 2019 仅仅用这一招就可以从第100名直接提升到第10名。
分别对应着入门-进阶-速推三个层次。有关问题大家可以在评论区讨论,先把ppt放出来来吧。后面慢慢补充以及展开每一部分的内容,每一部分都可以单都讲很久,在图灵联邦上40分钟实在是密度太大了。
这个地方很有意思,KDD CUP 2019 仅仅用这一招就可以从第100名提升到第10名。
这个CTR特征速查表其实有好几页word,这里写了常用的一部分。
配套讲解视频
https://www.bilibili.com/video/av57480953/?p=2
更多竞赛知识
1.脸熟的评判标准是根据通过留言的次数来决定的
2.留言时需要按照今日留言主题来用心留言,否则不计入总数
3.每日赠书专区会出现在AI派当天发布文章的头条或次条的文章末尾
本书简介:
这是一本将数据分析技术与数据使用场景深度结合的著作,从实战角度讲解了如何利用Python进行数据分析和数据化运营。
本书先后介绍了Python和数据化运营的基本知识,然后详细讲解了Python数据获取(结构化和非结构化)、预处理、分析和挖掘的关键技术和经验,包含10大类预处理经验、14个数据分析与挖掘主题,50余个知识点以及讲解了会员运营、商品运营、流量运营和内容运营4大主题,以及提升数据化运营价值的方法。每个运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个综合性的应用案例。
?↑↑点击上方小程序即可购买
恭喜上期通过留言成功混脸熟的读者:15,赠送一本《Linux实战》
请中奖同学联系小编:wanglaoshi201907
/ 今日留言主题 /
你平时都玩什么比赛呢?
近期专栏推荐
1. 算法原理稳如狗,工程落地慌得很!AI炼丹炉实践指南来啦~
点下「在看」,给文章盖个戳吧!?