- 博客(4)
- 收藏
- 关注
原创 2019中国高校计算机大赛——大数据挑战赛rank5总结
方案代码及答辩ppt:https://github.com/LiuYaKu/2019-rank5一、赛题分析:评价指标qauc,qauc为不同query下auc的平均值: 特征工程部分与qauc评价指标密切相关。初赛和复赛不同之处,title的ctr特征:初赛使用前9500万数据进行统计...
2019-09-22 22:57:18 2386 2
原创 解决机器学习问题的流程
确定问题类别有监督或者无监督问题,是分类还是回归问题。数据采集使用爬虫收集远程监督数据,或者收集目前已有开源数据集。数据清洗对于收集来的数据进行清洗工作,比如异常值检测(离群点检测),可以采用聚类方法k-means,找出离群点,以及基于统计的方法如分布在正态分布不接受的范围内的。数据集分割将数据集分为训练集,验证集,测试集。特征工程采用交叉特征,统计特征(有的特...
2019-10-02 20:04:46 213
原创 ESIM模型详细解读
由于最近2019中国高校计算机大赛——大数据挑战赛使用到了ESIM模型,并且效果拔群,所以在这里特意写一下,记录下来。感兴趣代码和比赛的:https://github.com/LiuYaKu/2019-rank5(我的top5代码)方案总结:https://blog.csdn.net/qq_36733823/article/details/101176349...
2019-10-02 11:25:54 4409
原创 2018腾讯广告算法大赛总结
这是本人写的第一篇博客,小白一枚,如有错误的地方,欢迎大佬们批评指教。首先这次的竞赛让人受益匪浅,那庞大的数据量,让人感叹这是一场有钱人的游戏。感谢学校的服务器,几乎没休止的转了一个多月,哈哈哈。虽然最后成绩不咋地,但是这次成长还是很大的,特此总结以下经验。问题描述这次比赛的任务是寻找相似人群,其实就可以看成是CTR问题。关注官方竞赛群一般只要是比较正式的比赛都会有官方的交流群,大家在这里交流,同...
2018-07-01 14:48:16 11263 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人