去年阿里天池大赛年度答辩在美丽的华工举办,五组选手的精彩答辩为我们提供了一场知识的盛宴,评委大多数都是阿里的资深工作人员,所以他们的提问也很细致。阿里举办的这种比赛意义还是挺大的,既可以解决自己的存在问题,又可以招贤。当然,对于数据爱好都的小白我,吸收了不少精华。
我的反思
我是研究生阶段接触机器学习和深度学习(了解一点),然后以李航老师写的《统计学方法》和《集体智慧编程》入门的,在kaggle上有参加过一两个比赛,不过,都是提供给新手练手的项目。先前我自己也报名了这个比赛,题目的信息很大,一开始根本无人下手,刚看到是关于图片的题目,首先应该从图片的信息中获得搭配的依据,虽然也提供了丰富的文本信息,没想到怎样使用,一上来就劈头盖脸的进行sift提取,还想通过词袋模型来进行训练得到搭配,结果对上百万张图片进行sift特征提取,师弟的电脑的一个硬盘都满了,还没有提取完,还花了四,五天的时间。从这次比赛中我学到了以下两点:
1.需要自己构造训练集,而不是把所有的数据拿来,不加区分,不加拆分的使用;
2.最好能够建立一个数学模型,虽然前期的思考不那么容易,但是这有利于后期参数调节,而不是凭借运气进行调参,这个在阿里的五组答辩选手的比赛思路中很明显体现出来:五队选手中,只有第一名和第二名进行了数学分析,建立的模型也相对简单和有效;
3.要仔细的分析赛题和赛方提供的数据;
在着手实际的大数据问题中,对于我们新手常遇到到又觉得抽象的问题是:怎样去选取特征