《碎碎念八一八Breiman》

机器学习界,虽然开宗立派不算久,但追思的先贤清单,也可以拉一长串了。因为这个领域,相比太多的学科,资历太嫩了,于是什么山头都避不过。

 

比如我们今天要拜的LeoBreiman,他仙逝前是伯克利的统计系元老。但他留下的CART,Bagging,Random Forest……深深地影响了机器学习界

 

但如果你觉得Breiman就是个纯粹的统计学家,那你就错了,他的一生,建树无数,涉猎甚广,纵情恣意。可以说,他拜的山头和立的山头,都一样多……

 

Breiman是犹太后裔,这点很关键,即使他后来也曾颓废过,但基因好的,就是容易拯救和爆发。

 

他主要在洛杉矶的BoyleHeight长大,这里是犹太人聚居地。他那个少年时代(1930-1940),犹太移民聚集地其实比贫民区好不了多少,不像现在犹太人比较高大上,已经把Boyle Height都淘汰给老墨了。

 

犹太人尊知重教的传统不是盖的,在Boyle Height这种城乡结合部长大的犹太孩子,很大比例都去高中名校了,比如Breiman就被爸妈送去纽约州的罗斯福高中读书。简直就是把他从云南送去了北京四中这种名校。

 

然后Breiman就本科考进了加州理工Caltech(钱学森就是那个时代的Caltech的博士)。Caltech很难进,要亲自去考数理化和语文四科,每科考四小时,几千人申请,那年录取了250个。

 

Breiman考进了物理系。大一他很上进,GPA很高,拿到了奖学金。但大二大三大四就日渐颓废,受不了被填鸭太多物理知识,他觉得Caltech太像一个苦修科学的和尚庙了,估计是给憋坏了,大四时主科拿了4个D...若再差点就要拿F挂科了。

 

好不容易从Caltech毕业后,Breiman申请了一通研究院,他物理主课一塌糊涂,但好在数学的科目分还不错,还是拿到了一个读硕士的offer。是哥大给的(就是李云迪女朋友那学校),硕士也没奖学金,家里也没钱供他读,但好在他之前打工存了不少钱。

 

带着对Caltech的遗憾,他去了哥大。物理把他伤得如此之深,他去哥大,首先去的是哲学系,因为他万念俱灰想读哲学。Breiman去找哲学系系主任,系主任关心地拍了拍他,语重心长的说,我最好的两个研究生毕业了都找不到出处,要不你还是在数学系呆着,有空就来这边上上课?

 

Breiman只好回数学系,也上了几堂哲学课,然后就死心塌地学数学。。。一年后他就硕士毕业,然后申请到了去伯克利读数学博士。读博之余,他还跑到船上餐厅端盘子,赚了很多小费。

 

他在伯克利的老板是Loeve,跟Loeve学概率论学得不错。但Loeve是完美主义者,传言说要做他的博士生,如果不能科科拿A,那就要被他直接从窗户里扔出去。

 

Breiman即使科科拿A,可博士论文改了又改,Loeve还是不满意。研究院都急着催Breiman,老延期不行啊。Loeve也受到压力,赶在最后期限前,让Breiman一两星期就答辩通过了。

 

Breiman可能是被Loeve伤到了,他也没找教职,去当兵了。

 

服兵役一年多时,他看到一个政策,说找到工作的话,兵役最后两个月可以免掉。于是他求着伯克利数学系系主任给了个临时工作,回到了伯克利。

 

在伯克利他跟Blackwell很熟,Blackwell就经常出些难题挑战Breiman,说你丫牛啊,那有没有本事证明这个证明那个?结果Breiman就证明了一个不错的定理,后来以他的名字命名,叫做Shannon-McMillan-Breiman(SMB)定理。定理里面第一个名字是香农。这是1957年,Breiman 29岁的时候。不过Breiman这个证明不怎么靠谱,但也没几个人看得出来没证明的对错,因为这定理太难懂了。不过1960年时他还是很有职业道德滴把证明重新修订了一下。

 

1948年香农发表他的信息论开山之作后几十年,信息论在很多领域都有应用。这也是Breiman在57-60年关注SMB定理的原因。另外,就在1956年,凯利根据香农的信息论,发表了对量化交易界影响巨大的凯利指数。Breiman这种天才当然也不会闲着,他太会证明东西了,根据凯利指数发表了两篇跟博彩系统有关的论文。其中有篇Optimal Gambling Systems for Favorable Games,Breiman和索普都用这个题目写过论文,Breiman写得很抽象,索普写得生动浅白。所以这也决定了Breiman后来不像索普利用凯利指数发财,他在这个领域客串了一下,就继续搞概率论去了。

 

1960年他去了UCLA,当了七年教授,终身教职也拿到了。在UCLA他主要就是教概率论,同时不断倒腾概率论哪些地方还讲不通的,他就负责把讲不通的搞通,该证明的就给个证明。

 

在UCLA轮到他Sabbatical时,他也很特立独行,说不想去任何学校。于是学校帮他找啊找啊,找到一个去非洲利比里亚的事情,以“教育统计学家”的身份去的。干的事情的确很教育也很统计,就是帮利比里亚统计全国有多少学生。这事情听起来太简单了,但利比里亚不少学校是在原始森林里,他们要做的是分成若干队伍,去一个一个森林部落探访,去把学生数记录下来。黑人小孩看到他这个白人很新奇,总觉得他的白皮肤涂了粉,一见到他就跑过来搓他皮肤,看能不能把白涂料搓下来……

 

七年之后,他又闲不住了,对自己说,纯数学是不错,但还是没劲。因为他觉得当时数学的教法让学生觉得枯燥,跟现实生活脱节,于是他从UCLA辞职,把社保养老金全部取出来。辞职半年里,他啥也不干,写了一本《概率论》。但毕竟概率论是教材不是索普那种《打败市场》的畅销书,半年后他感觉到生活有压力了,于是开始找工作。

 

因为他在63年时跟兰德公司旗下的SDC公司合作过关于交通数据研究,里面的顾问员就介绍他去了TSC这个顾问公司。在这里他干了十几年。帮政府环保部门研究大气污染,犯罪预防等,接触了很多需要对数据分类和进行预测的任务。也正是这段时间的积累,他对统计的实际价值有了比较深刻的认识,像CART就是那之后发明的。

 

他这期间还成为一个小学的校董,因为他想搞明白美国小孩不喜欢数学,数学不行的原因。最后他认为有两点根源:数学的教法没跟实际结合;数学能力其实是语言能力,能把数学公式和原理翻译成语言说出来,能把说的翻译成数学,这事才成。

 

在顾问公司这十几年他也没发过论文。不过伯克利还是把他请回去了。这让他一直纳闷伯克利搭错了哪根筋。

 

回到伯克利,他发现那里搞统计的计算机设备太弱了。他要教多元统计,没有好设备可不行,于是他发挥在顾问公司写提案申请经费的本领,帮伯克利弄到不少经费,买了很多电脑。为伯克利开创了计算统计系。

 

但Breiman再一次表现他的特立独行,在被问及对年轻人的建议时,他说:不要学统计专业,学术界把统计搞得迷失了。他说他从咨询界回到伯克利时,感觉就像丛林里找不到北的爱丽丝。工业界和政府使用数据的方法,学术界相比差上光年之遥,把统计搞成了抽象数学。他们偏离了Fisher的初衷,统计应该是关于预测、解释和处理数据的学问。

 

所以在90年中开始,Breiman说他跟机器学习和神经网络界走得更近。因为这行是在处理有挑战的数据问题,虽然他们多是没接受过统计训练的人。

 

此外,Breiman还是个雕塑家。。。。。。他还在64年投资创业过,给饮料店提供冰块。

 

我最深的感触,Breiman真是个不墨守陈规、敢于挑战自己的人。

 

 

本书是信息论领域中一本简明易懂的教材。主要内容包括:熵、信源、信道容量、率失真、数据压缩与编码理论和复杂度理论等方面的介绍。 本书还对网络信息论和假设检验等进行了介绍,并且以赛马模型为出发点,将对证券市场豹研究纳入了信息论的框架,从新的视角给投资组合的研究带来了全新的投资理念和研究技巧。 本书适合作为电子工程、统计学以及电信方面的高年级本科生和研究生的信息论基础教程教材,也可供研究人员和专业人士参考。 目录 译者序 第2版前言 第1版前言 第2版致谢 第1版致谢 第1章 绪论与概览 第2章 熵、相对熵与互信息  2.1 熵  2.2 联合熵与条件熵  2.3 相对熵与互信息  2.4 熵与互信息的关系  2.5 熵、相对熵与互信息的链式法则  2.6 Jensen不等式及其结果  2.7 对数和不等式及其应用  2.8 数据处理不等式  2.9 充分统计量  2.10 费诺不等式  要点  习题  历史回顾 第3章 渐近均分性  3.1 渐近均分性定理  3.2 AEP的推论:数据压缩  3.3 高概率集与典型集  要点  习题  历史回顾. 第4章 随机过程的熵率  4.1 马尔可夫链  4.2 熵率  4.3 例子:加权图上随机游动的熵率  4.4 热力学第二定律  4.5 马尔可夫链的函数  要点  习题  历史回顾 第5章 数据压缩  5.1 有关编码的几个例子  5.2 Kraft不等式  5.3 最优码  5.4 最优码长的界  5.5 惟一可译码的Kraft不等式  5.6 赫夫曼码  5.7 有关赫夫曼码的评论  5.8 赫夫曼码的最优性  5.9 Shannon-Fano-Elias编码  5.10 香农码的竞争最优性  5.11 由均匀硬币投掷生成离散分布  要点  习题  历史回顾 第6章 博弈与数据压缩  6.1 赛马  6.2 博弈与边信息  6.3 相依的赛马及其熵率  6.4 英文的熵  6.5 数据压缩与博弈  6.6 英文的熵的博弈估计  要点  习题  历史回顾 第7章 信道容量  7.1 信道容量的几个例子   7.1.1 无噪声二元信道   7.1.2 无重叠输出的有噪声信道   7.1.3 有噪声的打字机信道   7.1.4 二元对称信道   7.1.5 二元擦除信道  7.2 对称信道  7.3 信道容量的性质  7.4 信道编码定理预览  7.5 定义  7.6 联合典型序列  7.7 信道编码定理  7.8 零误差码  7.9 费诺不等式与编码定理的逆定理  7.10 信道编码定理的逆定理中的等式  7.11 汉明码  7.12 反馈容量  7.13 信源信道分离定理  要点  习题  历史回顾 第8章 微分熵  8.1 定义  8.2 连续随机变量的AEP  8.3 微分熵与离散熵的关系  8.4 联合微分熵与条件微分熵  8.5 相对熵与互信息  8.6 微分熵、相对熵以及互信息的性质  要点  习题  历史回顾 第9章 高斯信道  9.1 高斯信道:定义  9.2 高斯信道编码定理的逆定理  9.3 带宽有限信道  9.4 并联高斯信道  9.5 高斯彩色噪声信道  9.6 带反馈的高斯信道  要点  习题  历史回顾 第10章 率失真理论  10.1 量化  10.2 定义  10.3 率失真函数的计算   10.3.1 二元信源   10.3.2 高斯信源   10.3.3 独立高斯随机变量的同步描述  10.4 率失真定理的逆定理  10.5 率失真函数的可达性  10.6 强典型序列与率失真  10.7 率失真函数的特征  10.8 信道容量与率失真函数的计算  要点  习题  历史回顾 第11章 信息论与统计学  11.1 型方法  11.2 大数定律  11.3 通用信源编码  11.4 大偏差理论  11.5 Sanow定理的几个例子  11.6 条件极限定理  11.7 假设检验  11.8 Chernoff-Stein引理  11.9 Chemoff信息  11.10 费希尔信息与Cramer-Rao不等式  要点  习题  历史回顾 第12章 最大熵  12.1 最大熵分布  12.2 几个例子  12.3 奇异最大熵问题  12.4 谱估计  12.5 高斯过程的熵率  12.6 Burg最大熵定理  要点  习题  历史回顾 第13章 通用信源编码  13.1 通用码与信道容量  13.2 二元序列的通用编码  13.3 算术编码  13.4 Lempel-Ziv编码   13.4.1 带滑动窗口的Lernpel-Ziv算法   13.4.2 树结构Lernpel-Ziv算法  13.5 Lempel-Ziv算法的最优性   13.5.1 带滑动窗口的Lempel-Ziv算法   13.5.2 树结构Lempel-Ziv压缩的最优性  要点  习题  历史回顾 第14章 科尔莫戈罗夫复杂度  14.1 计算模型  14.2 科尔莫戈罗夫复杂度:定义与几个例子  14.3 科尔莫戈罗夫复杂度与熵  14.4 整数的科尔莫戈罗夫复杂度  14.5 算法随机序列与不可压缩序列  14.6 普适概率  14.7 科尔莫戈罗夫复杂度  14.8 Ω  14.9 万能博弈  14.10 奥克姆剃刀  14.11 科尔莫戈罗夫复杂度与普适概率  14.12 科尔莫戈罗夫充分统计量  14.13 最短描述长度准则  要点  习题  历史回顾 第15章 网络信息论  15.1 高斯多用户信道   15.1.1 单用户高斯信道   15.1.2 阴个用户的高斯多接人信道   15.1.3 高斯广播信道   15.1.4 高斯中继信道   15.1.5 高斯干扰信道   15.1.6 高斯双程信道  15.2 联合典型序列  15.3 多接人信道   15.3.1 多接人信道容量区域的可达性   15.3.2 对多接人信道容量区域的评述   15.3.3 多接人信道容量区域的凸性   15.3.4 多接人信道的逆定理   15.3.5 m个用户的多接人信道   15.3.6 高斯多接人信道  15.4 相关信源的编码   15.4.1 Slepian-wolf定理的可达性   15.4.2 Slepian-Wolf定理的逆定理   15.4.3 多信源的Slepian-Wolf定理   15.4.4 Slepian-Wolf编码定理的解释  15.5 Slepian-Wolf编码与多接人信道之间的对偶性  15.6 广播信道   15.6.1 广播信道的定义   15.6.2 退化广播信道   15.6.3 退化广播信道的容量区域  15.7 中继信道  15.8 具有边信息的信源编码  15.9 具有边信息的率失真  15.10 一般多终端网络  要点  习题  历史回顾 第16章 信息论与投资组合理论  16.1 股票市场:一些定义  16.2 对数最优投资组合的库恩-塔克特征  16.3 对数最优投资组合的渐近最优性  16.4 边信息与增长率  16.5 平稳市场中的投资  16.6 对数最优投资组合的竞争最优性  16.7 万能投资组合   16.7.1 有限期万能投资组合   16.7.2 无限期万能投资组合  16.8 Shanon-McMillan-Breiman定理(广义渐近均分性质)  要点  习题  历史回顾 第17章 信息论中的不等式  17.1 信息论中的基本不等式  17.2 微分熵  17.3 熵与相对熵的界  17.4 关于型的不等式  17.5 熵的组合界  17.6 子集的熵率  17.7 熵与费希尔信息  17.8 熵幂不等式与布伦-闵可夫斯基不等式  17.9 有关行列式的不等式  17.10 关于行列式的比值的不等式  要点  习题  历史回顾 参考文献 索引
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值