机器学习界,虽然开宗立派不算久,但追思的先贤清单,也可以拉一长串了。因为这个领域,相比太多的学科,资历太嫩了,于是什么山头都避不过。
比如我们今天要拜的LeoBreiman,他仙逝前是伯克利的统计系元老。但他留下的CART,Bagging,Random Forest……深深地影响了机器学习界
但如果你觉得Breiman就是个纯粹的统计学家,那你就错了,他的一生,建树无数,涉猎甚广,纵情恣意。可以说,他拜的山头和立的山头,都一样多……
Breiman是犹太后裔,这点很关键,即使他后来也曾颓废过,但基因好的,就是容易拯救和爆发。
他主要在洛杉矶的BoyleHeight长大,这里是犹太人聚居地。他那个少年时代(1930-1940),犹太移民聚集地其实比贫民区好不了多少,不像现在犹太人比较高大上,已经把Boyle Height都淘汰给老墨了。
犹太人尊知重教的传统不是盖的,在Boyle Height这种城乡结合部长大的犹太孩子,很大比例都去高中名校了,比如Breiman就被爸妈送去纽约州的罗斯福高中读书。简直就是把他从云南送去了北京四中这种名校。
然后Breiman就本科考进了加州理工Caltech(钱学森就是那个时代的Caltech的博士)。Caltech很难进,要亲自去考数理化和语文四科,每科考四小时,几千人申请,那年录取了250个。
Breiman考进了物理系。大一他很上进,GPA很高,拿到了奖学金。但大二大三大四就日渐颓废,受不了被填鸭太多物理知识,他觉得Caltech太像一个苦修科学的和尚庙了,估计是给憋坏了,大四时主科拿了4个D...若再差点就要拿F挂科了。
好不容易从Caltech毕业后,Breiman申请了一通研究院,他物理主课一塌糊涂,但好在数学的科目分还不错,还是拿到了一个读硕士的offer。是哥大给的(就是李云迪女朋友那学校),硕士也没奖学金,家里也没钱供他读,但好在他之前打工存了不少钱。
带着对Caltech的遗憾,他去了哥大。物理把他伤得如此之深,他去哥大,首先去的是哲学系,因为他万念俱灰想读哲学。Breiman去找哲学系系主任,系主任关心地拍了拍他,语重心长的说,我最好的两个研究生毕业了都找不到出处,要不你还是在数学系呆着,有空就来这边上上课?
Breiman只好回数学系,也上了几堂哲学课,然后就死心塌地学数学。。。一年后他就硕士毕业,然后申请到了去伯克利读数学博士。读博之余,他还跑到船上餐厅端盘子,赚了很多小费。
他在伯克利的老板是Loeve,跟Loeve学概率论学得不错。但Loeve是完美主义者,传言说要做他的博士生,如果不能科科拿A,那就要被他直接从窗户里扔出去。
Breiman即使科科拿A,可博士论文改了又改,Loeve还是不满意。研究院都急着催Breiman,老延期不行啊。Loeve也受到压力,赶在最后期限前,让Breiman一两星期就答辩通过了。
Breiman可能是被Loeve伤到了,他也没找教职,去当兵了。
服兵役一年多时,他看到一个政策,说找到工作的话,兵役最后两个月可以免掉。于是他求着伯克利数学系系主任给了个临时工作,回到了伯克利。
在伯克利他跟Blackwell很熟,Blackwell就经常出些难题挑战Breiman,说你丫牛啊,那有没有本事证明这个证明那个?结果Breiman就证明了一个不错的定理,后来以他的名字命名,叫做Shannon-McMillan-Breiman(SMB)定理。定理里面第一个名字是香农。这是1957年,Breiman 29岁的时候。不过Breiman这个证明不怎么靠谱,但也没几个人看得出来没证明的对错,因为这定理太难懂了。不过1960年时他还是很有职业道德滴把证明重新修订了一下。
1948年香农发表他的信息论开山之作后几十年,信息论在很多领域都有应用。这也是Breiman在57-60年关注SMB定理的原因。另外,就在1956年,凯利根据香农的信息论,发表了对量化交易界影响巨大的凯利指数。Breiman这种天才当然也不会闲着,他太会证明东西了,根据凯利指数发表了两篇跟博彩系统有关的论文。其中有篇Optimal Gambling Systems for Favorable Games,Breiman和索普都用这个题目写过论文,Breiman写得很抽象,索普写得生动浅白。所以这也决定了Breiman后来不像索普利用凯利指数发财,他在这个领域客串了一下,就继续搞概率论去了。
1960年他去了UCLA,当了七年教授,终身教职也拿到了。在UCLA他主要就是教概率论,同时不断倒腾概率论哪些地方还讲不通的,他就负责把讲不通的搞通,该证明的就给个证明。
在UCLA轮到他Sabbatical时,他也很特立独行,说不想去任何学校。于是学校帮他找啊找啊,找到一个去非洲利比里亚的事情,以“教育统计学家”的身份去的。干的事情的确很教育也很统计,就是帮利比里亚统计全国有多少学生。这事情听起来太简单了,但利比里亚不少学校是在原始森林里,他们要做的是分成若干队伍,去一个一个森林部落探访,去把学生数记录下来。黑人小孩看到他这个白人很新奇,总觉得他的白皮肤涂了粉,一见到他就跑过来搓他皮肤,看能不能把白涂料搓下来……
七年之后,他又闲不住了,对自己说,纯数学是不错,但还是没劲。因为他觉得当时数学的教法让学生觉得枯燥,跟现实生活脱节,于是他从UCLA辞职,把社保养老金全部取出来。辞职半年里,他啥也不干,写了一本《概率论》。但毕竟概率论是教材不是索普那种《打败市场》的畅销书,半年后他感觉到生活有压力了,于是开始找工作。
因为他在63年时跟兰德公司旗下的SDC公司合作过关于交通数据研究,里面的顾问员就介绍他去了TSC这个顾问公司。在这里他干了十几年。帮政府环保部门研究大气污染,犯罪预防等,接触了很多需要对数据分类和进行预测的任务。也正是这段时间的积累,他对统计的实际价值有了比较深刻的认识,像CART就是那之后发明的。
他这期间还成为一个小学的校董,因为他想搞明白美国小孩不喜欢数学,数学不行的原因。最后他认为有两点根源:数学的教法没跟实际结合;数学能力其实是语言能力,能把数学公式和原理翻译成语言说出来,能把说的翻译成数学,这事才成。
在顾问公司这十几年他也没发过论文。不过伯克利还是把他请回去了。这让他一直纳闷伯克利搭错了哪根筋。
回到伯克利,他发现那里搞统计的计算机设备太弱了。他要教多元统计,没有好设备可不行,于是他发挥在顾问公司写提案申请经费的本领,帮伯克利弄到不少经费,买了很多电脑。为伯克利开创了计算统计系。
但Breiman再一次表现他的特立独行,在被问及对年轻人的建议时,他说:不要学统计专业,学术界把统计搞得迷失了。他说他从咨询界回到伯克利时,感觉就像丛林里找不到北的爱丽丝。工业界和政府使用数据的方法,学术界相比差上光年之遥,把统计搞成了抽象数学。他们偏离了Fisher的初衷,统计应该是关于预测、解释和处理数据的学问。
所以在90年中开始,Breiman说他跟机器学习和神经网络界走得更近。因为这行是在处理有挑战的数据问题,虽然他们多是没接受过统计训练的人。
此外,Breiman还是个雕塑家。。。。。。他还在64年投资创业过,给饮料店提供冰块。
我最深的感触,Breiman真是个不墨守陈规、敢于挑战自己的人。