机器学习的主要挑战
训练数据的数量不足
目前大部分机器学习算法都需要大量的数据才能正常工作(除非重用现有模型的某些部分)。
数据的不合理有效性
2001年,微软有研究员表明,截然不同的机器学习算法(包括最简单的算法)在自然语言歧义消除这个复杂问题的表现上,几乎完全一致。
这些结果表明,和算法开发上,数据的建设也尤为重要.
训练数据不具有代表性
就如之前的根据人均GDP预测人民生活满意度任务为例,如果有部分数据缺失,则会是模型的预测不准确。
采样偏差
采样偏差是使训练数据不具代表性的重要原因,一个著名的案例是1936年,兰登对决罗斯福
其次,还有一种特殊类型的采用偏差,叫做无反应偏差。
质量差的数据
如果训练数据**满是错误、异常值和噪声,系统将更难检测到底层模式,**更不太可能会表现良好 ,所以很有必要花时间处理训练数据。
- 如果某些实例明显是异常情况,要么直接丢弃,要么手动修复错误
- 如果某些实例缺少部分特征,(例如,5%的顾客没有指定年龄),要么整体忽略这些特征,要么忽略这部分有缺失的实例,又或者是将缺失的值补充完整(比如填写年龄值的中位数,或者训练 一个带有这个特征的模型,再训练一个不带有这个特征的模型)。
无关特征
正所谓:垃圾入