机器学习的主要挑战

机器学习面临诸多挑战,包括训练数据不足、数据不具代表性、质量差、无关特征、过度拟合和拟合不足。为解决这些问题,需要进行有效的数据处理、特征工程、模型选择和验证。测试集和交叉验证是评估模型泛化能力的关键,而没有免费的午餐定理强调了选择模型时必须基于数据的假设。
摘要由CSDN通过智能技术生成

机器学习的主要挑战

训练数据的数量不足

目前大部分机器学习算法都需要大量的数据才能正常工作(除非重用现有模型的某些部分)。

数据的不合理有效性

2001年,微软有研究员表明,截然不同的机器学习算法(包括最简单的算法)在自然语言歧义消除这个复杂问题的表现上,几乎完全一致。
这些结果表明,和算法开发上,数据的建设也尤为重要.

训练数据不具有代表性

就如之前的根据人均GDP预测人民生活满意度任务为例,如果有部分数据缺失,则会是模型的预测不准确。

采样偏差

采样偏差是使训练数据不具代表性的重要原因,一个著名的案例是1936年,兰登对决罗斯福
其次,还有一种特殊类型的采用偏差,叫做无反应偏差。

质量差的数据

如果训练数据**满是错误、异常值和噪声,系统将更难检测到底层模式,**更不太可能会表现良好 ,所以很有必要花时间处理训练数据。

  • 如果某些实例明显是异常情况,要么直接丢弃,要么手动修复错误
  • 如果某些实例缺少部分特征,(例如,5%的顾客没有指定年龄),要么整体忽略这些特征,要么忽略这部分有缺失的实例,又或者是将缺失的值补充完整(比如填写年龄值的中位数,或者训练 一个带有这个特征的模型,再训练一个不带有这个特征的模型)。

无关特征

正所谓:垃圾入࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值