为了提高数据爱好者们的对数据竞赛的了解,吸引更多小伙伴加入到数据竞赛中来,我们DataFountain为大家准备了数据挖掘、自然语言处理、计算机视觉三大类型赛事的竞赛技巧分享系列内容。“数据挖掘”类竞赛技巧分享将从领域介绍、数据预处理、模型选题、常用trick介绍4个方面入手,向大家分享参赛技巧。期待大家能够学有所得,早日运用到竞赛中并夺得大奖哦~
竞赛练习场:http://ww.datafountain.cn
数据挖掘类竞赛技巧分享目录:
- 领域介绍(回归问题+分类问题)
- 数据预处理
- 模型选型
- 常用trick介绍
1.回归问题
回归问题是机器学习中很重要的一环,其主要功能是建模以及分析变量之间的关系,回归问题常用来预测一个具体的数值,如房价预测、股票预测、天气预测等,举例来说我们可以根据一个地区的房价历史价格来评估未来某个时间的房价变化,预测值和实际数值越接近,则回归算法的可信度就越高。
面对一个回归问题,其常规处理流程如下所示:
-
数据集预处理,即针对原始数据集进行诸如缺失值、异常值、关联性分析等处理;
-
选定训练模型,即选择一个针对当前数据集的求解框架,如线性回归模型等;
-
选择合适的学习算法,即通过训练集中的大量训练迭代不断优化输入数据与输出数据间的关联性,从而提升模型预测精度;
-
模型训练结束之后进行结果预测,此时可以为训练得到的回归模型输入一组新的数据,模型根据训练集的学习成果来预测新的数据的输出结果。
2.分类问题
分类问题是机器学习中另外一个十分重要的一环,而且分类问题也是我们在日常生活中经常遇到的问题,譬如垃圾邮件的分类,衣服种类的识别,以及信用卡是否违约的识别,这些问题全部都是属于分类问题的范畴。
分类问题常用准确率进行判断模型学习能力的好坏,一般情况下准确率越高其模型分类能力越强,准确率越低,其模型的分类能力越差。
(更多详情请关注“一碗数据汤”了解)
—待续—