【每周一文】A Few Usefull Things to know about Machine Learning

本文概述了机器学习的基本概念,强调了泛化能力的重要性,指出数据质量和特征工程的关键角色,讨论了过拟合、维度灾难等问题,并提出了学习多个模型、更多数据优于更复杂算法的观点,提醒学习者注意理论与实践的差距以及相关性与因果性的区别。
摘要由CSDN通过智能技术生成

概述

机器学习被普遍认为任何一个IT民工必备的工具之一,和学习任何语言工具一样,简单的体验一下或许非常简单。但这并不代表你能真正驾驭它,如果想深入不是一年两年能搞得定事情,本文作者总结了对于刚入门机器学习者需要注意一些事项。

什么是学习

机器学习包括无监督、半监督、监督、强化学习等,但是对于很多初入门的MLer可能就是监督学习,即给定训练样本和标签,学习出某个模型进行新样本预测。

学习=表示+评估+优化

  1. 表示:表示的过程也是模型选择过程,也是假设空间确定过程,也是特征选择过程。也是从给定训练数据中找到一个合适形式表示数据,从而能够进行泛化。也有人认为学习过程也是一种记忆和推理过程,根据已有事实进行新样本推理。
  2. 评估:模型的泛化能力,好的模型不仅仅能够对训练样本能够有效预测,还能够对未知样本进行有效预测。评估过程提供一个评价函数对模型进行量化。
  3. 优化:寻找最优表示的过程,确定表示参数的过程。不同的优化算法从假设空间遍历的过程都是不同的。

机器学习那些事

泛化很重要

由于我们不可能获取到全部训练样本,即使能也可能存储不下全部样本,这样必须有效提供模型泛化能力。
一个好的模型不仅仅是在训练数据上表现出好的效果,而是对于不可见样本也能表现出好的效果。因此训练时常将训练数据划分为测试集合和训练集合,通过训练集合进行模型学习,测试集合进行模型效果验证。对于模型参数的选择可以通过交叉验证(CV)进行选择。

仅仅有数据是不够的

由于

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值