机器学习那些事

学习需要知识,机器学习不是魔术,它无法凭空变出东西,它所做的是由少变多,编程就像所有的工程技术那样,意味着大量的工作,必须从头开始建造一切。而机器学习更像种田,它让大自然做大部分工作,农名将种子与肥料混合种出庄稼。学习器(大自然)将知识(种子)和数据(肥料)结合"种出"程序。

学习 = 表示 + 评价 + 优化

大部分算法都是由这三部分组成

表示(Representation)

一个分类器必须用计算机可以处理的某种形式语言表示,选择某种特定的分类器集和,该集合被称作学习器的假设空间(hypothesis space)

评价(Evaluation)

我们需要一个评价函数来判断分类器的优劣,评价函数可包括机器学习算法内部使用的评价函数和分类器进行优化的外部评价函数

优化(Optimization)

我们需要一种搜索方法,能够在假设空间找到评价函数得分最优的那个分类器,初学者通常采用现成的优化方法,之后再用定制专门的优化方法来替代。
在这里插入图片描述

机器学习的常见问题

1.防止过拟合

泛化(generalization)很重要,常用的防止过拟合方法包括:

  • 交叉验证
  • 对评价函数增加正则项
  • 卡方测试(决定是否增加新结构,看看类别分布是否因为增加这个结构而不同,当数据非常缺乏时,这项技术非常有用)
2.维度灾难

问题描述:许多在低纬空间表现很好的算法,当输入是高纬时,计算变得不可行,在机器学习领域,这有更多的意义。随着样例维度(特征数目)的增长,正确泛化的难度会以指数级增长,原因是同等规模的数据集只能覆盖越来越少的 输入空间比例。更严格的讲,机器学习所(显示或隐示)依赖的基于相似度的推理在高维空间不再有效。

机器学习项目成功的保证

  • 特征工程(Feature Engineering)是关键
  • 更多的数据胜过更聪明的算法
  • 要学习很多模型,而不仅仅是一个(模型融合)
  • 简单并不意味着准确
  • 可表示并不意味着可学习
  • 相关并不意味着因果

----------以上内容参考论文 “A Few Useful Things to Know About Maching Learning”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值