摘要: 机器学习与人类学习的范式有一定的联系. 本文发掘这些联系, 作用是指导人类的学习.
1. 什么是学习?
对于人类而言, 学习是改造大脑皮层的过程. 我们会发现, 不同人学习不同东西的能力也不一样, 如有些人数学厉害, 有些人音乐厉害. 同时, 也有些牛人, 学习到了学习的方法, 然后学什么都厉害.
对于机器学习而言, 学习是优化超参数的过程. 如线性回归会获得一组权值向量, 深度学习也会获得网络的参数, 只是这些参数数量庞大, 动不动就是几十万甚至几十亿. 我们发现, 不同深度模型 (由层数、连接方式、激活函数) 应该不同任务的能力也不一样, 如有些适合做图像分割, 有些适合做语音识别. “学习到学习的方法”, 这在机器学习中称为元学习. 元学习能应对不同的任务, 但同时也需要更多的参数.
2. 为什么学习?
对于人类而言, 学习首要的目的是获得谋生技能, 即找到工作. 在现代社会, 简单的重复性劳动已经被工业机器替代了, 即使送外卖也需要学习手机的使用.
对于机器而言, 学习的目的也是完成某项任务, 如图像识别, 自主驾驶.
3. 如何学习?
我们只需要拾圣人的牙慧即可.
3.1 子曰:“学而不思则罔, 思而不学则殆”
对于人类而言, 如果只是学习, 而不进行思考, 就只是获得了所学习的知识, 稍微变化一点就不会了. 如: 记住了 3 + 2 = 5 3+2=5 3+2=5, 但却做不出 2 + 3 = ? 2+3=? 2+3=? 如果只是喜欢思考, 而不多学习, 知识面就很窄, 明明前人有解决方案的事情, 却要靠自己去论证. 你总不可能自己把牛顿三大定律, 微积分各大定理都手动推导出来吧.
对于深度学习而言, 如果学习了大量样本, 但只训练了一两轮, 并不能获得效果良好的模型. 如果只使用少量样本, 将网络训练了很多轮, 所获得的预测模型也不具有良好的泛化性.
3.2 子曰:“学而时习之, 不亦说乎”
这里的 “习” 可以解释为两层含义: 复习、实践.
对于人类而言, 应该经常回顾所学知识, 并归纳、总结、实践, 甚至于给别人讲授, 写成 CSDN 贴子. 这样才能让自己学习到的东西更加稳固, 更有体系.
对于深度而言, “复习” 对应于多次的训练, “实践” 则可解释为在验证集上检测系统的性能, 并据此调整超参数.
3.3 子曰:“温故而知新”
对于人类而言, 如果不断从已有知识领悟到方法, 进而获得解决问题的一般能力, 就很厉害了.
对于机器而言, 如果能做到元学习, 也就很厉害了.
3.4 庄子曰:“吾生有涯而知无涯, 以有涯随无涯, 殆矣!”
对于人类而言, 由于人类总体的知识爆炸性增长, 如果什么都学, 肯定时间不够. 这也是为什么我们要分物理、数学、计算机、小提琴等专业. 对于人类而言, 与自己工作有关的知识要精学, 其它的地方可以博学, 但仅限于了解 (陶潜: 不求甚解). 很多人误以为 “博士” 是知识渊博的人, 但在现代教育体系里面, 博士可能是对自己专业很清楚, 但做其它事情近乎白痴的人 (好吧, 这也是一种刻板印象). 假设一个人的工作时间固定, 那么他集中精力到比较窄的知识面, 反而能做出研究成果. 做研究不像是堆金字塔, 塔尖越高越需要大的底座; 而像石油钻探, 集中力量打一口井即可. 人贵有自知之明. 有些资质平平, 人心比天高, 最终竹篮打水一场空.
对于深度学习而言, 如果没有土豪支源超大运算能力, 建立一个大网络做元学习还不如针对任务训练一个较小的网络. 还有一种称为模型轻量化的方式, 即通过简化模型, 牺牲少点的预测能力, 获得速度大幅提升.
3.5 主动学习 (谁来告诉我这里有什么名人名言?)
对于人类而言, 找不懂的题请教老师, 比听老师满堂灌高效得多.
对于机器而言, 找出具有代表性或不确定性的样本请人类专家打标签, 比使用随机挑选的样本训练, 也会在使用更少的样本情况下获得更高的预测能力.