淘宝穿衣搭配算法大赛有感

最新推荐文章于 2020-08-25 18:09:53 发布

miangmiang咩

最新推荐文章于 2020-08-25 18:09:53 发布

阅读量7.6k

点赞数 5

分类专栏： machine-learning 文章标签：机器学习阿里天池在赛

本文链接：https://blog.csdn.net/jiangjieqazwsx/article/details/50700504

版权

本文作者分享了参与阿里天池穿衣搭配算法大赛的体验和反思，强调了构建训练集、数学建模和特征选择的重要性。通过分析优秀选手的策略，如数据集划分、相似度确定和概率模型构建，作者指出在大数据竞赛中深入理解赛题、合作与经验积累是关键。

摘要由CSDN通过智能技术生成

去年阿里天池大赛年度答辩在美丽的华工举办，五组选手的精彩答辩为我们提供了一场知识的盛宴，评委大多数都是阿里的资深工作人员，所以他们的提问也很细致。阿里举办的这种比赛意义还是挺大的，既可以解决自己的存在问题，又可以招贤。当然，对于数据爱好都的小白我，吸收了不少精华。

我的反思

我是研究生阶段接触机器学习和深度学习（了解一点），然后以李航老师写的《统计学方法》和《集体智慧编程》入门的，在kaggle上有参加过一两个比赛，不过，都是提供给新手练手的项目。先前我自己也报名了这个比赛，题目的信息很大，一开始根本无人下手，刚看到是关于图片的题目，首先应该从图片的信息中获得搭配的依据，虽然也提供了丰富的文本信息，没想到怎样使用，一上来就劈头盖脸的进行sift提取，还想通过词袋模型来进行训练得到搭配，结果对上百万张图片进行sift特征提取，师弟的电脑的一个硬盘都满了，还没有提取完，还花了四，五天的时间。从这次比赛中我学到了以下两点：

1.需要自己构造训练集，而不是把所有的数据拿来，不加区分，不加拆分的使用；

2.最好能够建立一个数学模型，虽然前期的思考不那么容易，但是这有利于后期参数调节，而不是凭借运气进行调参，这个在阿里的五组答辩选手的比赛思路中很明显体现出来：五队选手中，只有第一名和第二名进行了数学分析，建立的模型也相对简单和有效；

3.要仔细的分析赛题和赛方提供的数据；

在着手实际的大数据问题中，对于我们新手常遇到到又觉得抽象的问题是：怎样去选取特征࿱