《机器学习》周志华——勘误表

原贴地址是:
http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm

对数学公式的Latex代码进行转换

(第一版第25次印刷, 2018年3月):

p.39, 最后一行:” [, [ − ∞ , ” –> “ (, ( − ∞ , ”,” ,] , ∞ ] ” –> “ ,) , ∞ )
p.199, 式(9.12):分母的 “ (μi,μj) ( μ i , μ j ) ” –> “ (Ci,Cj) ( C i , C j )

(第一版第24次印刷, 2018年1月):

p.112, 图 5.14a: 修订文件
p.303, 倒数第二行:去掉 “[Zhou et al., 2004]”
p.304, 第一行:”当” –> “考虑到有标记样本通常很少而未标记样本很多, 为缓解过拟合, 可在式(13.21)中引入针对未标记样本的~L 2 2 ~范数项~ μl+ui=l+1Fi2 μ ∑ i = l + 1 l + u ‖ F i ‖ 2 , 在”; 同时插入边注: “参见~11.4~节”

(第一版第23次印刷, 2017年10月):

p.27, 式(2.1):第一个” ” –> “ ”, 第二个” ” –> “ = =
p.80, 倒数第2行:”算法4.2” –> “图 4.2 算法”
p.131, 图 6.5: 修订文件

(第一版第22次印刷, 2017年9月):

p.156, 倒数第7行:”(7.23)” –> “(7.21)”
p.320, 第8行:”其余~n2” –> “此前~ t2 t − 2

(第一版第21次印刷, 2017年8月)
(第一版第20次印刷, 2017年7月):

p.60, 图3.3中:” y=wTx y = w T x , y y ” –> “投影方向~w
p.133, 式(6.42)加边注: “传统意义上的”结构风险”是指引入模型结构因素后的总体风险(或许更宜译为”带结构风险”), 本书则是指总体风险中直接对应于模型结构因素的部分, 这样从字面上更直观, 或有助于理解其与机器学习中其他内容间的联系. 参见p.160.”

(第一版第19次印刷, 2017年6月):

p.159, 第一行加边注:”一般需先对图剪枝, 仅保留有向图中~ x x , y, z z ~及它们的祖先结点”
p.230, 式(10.15)上面一行加边注: “严格来说, 协方差矩阵是~ 1m1mi=1xixTi 1 m − 1 ∑ i = 1 m x i x i T , 但前面的常数项在此不发生影响”

(第一版第18次印刷, 2017年5月):

p.187, 式(8.39)下面一行: “ ” –> “

(第一版第17次印刷, 2017年4月):

p.384, 图16.10, 步骤9: “ π(x,a) π ( x , a ) ” –> “ π(x) π ( x )
p.388, 图16.13, 步骤4: “ πϵ(x) π ϵ ( x ) ” –> “ a=πϵ(x) a = π ϵ ( x )
p.388, 图16.13, 步骤8: 去掉”, a=a a = a ′

(第一版第16次印刷, 2017年3月):

p.417, 第3段第1行: “通往人工智能的途径” –> “一种人工智能途径”

(第一版第15次印刷, 2017年2月):

p.206, 9.4.3节前倒数第5行: “ c2 c 2 ” –> “ c1 c 1

(第一版第14次印刷, 2016年12月):

p.34, 图 2.4(b): 修订文件
p.206, 9.4.3节前倒数第2行: “(0.722; 0.442)” –> “(0.722; 0.447)”
p.209, 式(9.38)上面一行: “样本” –> “混合成分”
p.215, 图9.11第5步: “ j=1,2,,m j = 1 , 2 , … , m ” –> “ j=i+1,,m j = i + 1 , … , m
p.230, 式(10.14)结尾: “.” –> “,”
p.230, 式(10.14)下面一行开头顶格插入: “其中 W=(w1,w2,,wd) W = ( w 1 , w 2 , … , w d ) .”
p.231, 式(10.17): 两处” W W ”–>” wi w i ”, “ λ λ ” –> “ λi λ i
p.231, 式(10.17)下面第二行: “ W W ” –> “ W W ∗
p.231, 图10.5最后一行: “ W W ” –> “ W W ∗
p.232, 第一行: “ W W ” –> “ W W ∗
p.232, 式(10.19)前第二行: “ W W ” –> “ W=(w1,w2,,wd) W = ( w 1 , w 2 , … , w d )
p.232, 式(10.19)前第二行: “即PCA欲求解” –> “则对于 wj w j , 由式(10.17)有”
p.232, 式(10.19): 两处” W W ”–>” wj w j ”; “ λ λ ” –> “ λj λ j
p.233, 式(10.20): 三处” W W ”–>” wj w j ”; 两处” λ λ ”–>” λj λ j ”; “ αi α i ”–>” αji α i j
p.233, 式(10.20)下一行: “ αi α i ”–>” αji α i j ”; “ λ λ ”–>” λj λ j ”; “ W W ”–>” wj w j
p.233, 式(10.20)下一行: “. 假定” –> “是 αi α i 的第 j j 个分量. 假定”
p.233, 式(10.21): 两处”W”–>” wj w j ”; “ λ λ ”–>” λj λ j
p.233, 式(10.22): “ W W ”–>” wj w j ”; “ αi α i ”–>” αji α i j
p.233, 式(10.24): 两处” A A ”–>” αj α j ”; “ λ λ ”–>” λj λ j
p.233, 式(10.24)下面一行: “ A=(α1;α2;;αm) A = ( α 1 ; α 2 ; … ; α m ) ” –> “ αj=(αj1;αj2;;αjm) α j = ( α 1 j ; α 2 j ; … ; α m j )
p.233, 式(10.25)下面一行: 去掉 “, αji α i j αi α i 的第 j j 个分量”

(第一版第13次印刷, 2016年11月):

p.36, 倒数第5行: “(TPR, FPR)” –> “(FPR, TPR)”
p.120, 第7行: “(1927 – )” –> “(1927 – 2016)”
p.203, 图9.2下面一行: “x27” –> “ x24 x 24
p.203, 图9.2下面第3行: “(0.532; 0.472)” –> “(0.478; 0.437)”
p.203, 图9.2下面第5行: “0.166” –> “0.220”
p.203, 图9.2下面第7行: 大括号中增加 “ x3 x 3 ”, 去掉” x15 x 15
p.203, 倒数第5行: 大括号中去掉 “ x3 x 3 ”, 增加” x15 x 15
p.203, 倒数第3行: “(0.473; 0.214)” –> “(0.493; 0.207)”
p.203, 倒数第3行: “(0.623; 0.388)” –> “(0.602; 0.396)”
p.204, 图9.3: 修订文件

(第一版第12次印刷, 2016年11月)
(第一版第11次印刷, 2016年10月)
(第一版第10次印刷, 2016年9月):

p.156, 式(7.24)分母: “ Ni N i ” –> “ N×Ni N × N i
p.156, 式(7.25)下面一行: “其中 Ni N i ” –> “其中 N N D 中可能的类别数, Ni N i
p.156, 式(7.25)下面第4行, 分母: “ 17+3 17 + 3 ” –> “ 17+3×2 17 + 3 × 2
p.156, 式(7.25)下面第4行: “0.350” –> “0.304”

(第一版第9次印刷, 2016年8月)
(第一版第8次印刷, 2016年5月):

p.5, 第2段倒数第3行: “3、2、2” –> “3、3、3”
p.5, 第2段倒数第2行: “ 4×3×3+1=37 4 × 3 × 3 + 1 = 37 ” –> “ 4×4×4+1=65 4 × 4 × 4 + 1 = 65
p.26, 边注第2行: “2.6 节” –> “2.5 节”
p.41, 式(2.33)上面一行: “正态分布, 且均值 …… 因此变量” –> “正态分布. McNemar检验考虑变量”
p.41, 式(2.33)旁加边注: “ e01+e10 e 01 + e 10 通常很小, 需考虑连续性校正, 因此分子中有 1 − 1 项”
p.45, 第一个边注: “由式(2.37)” –> “考虑到噪声不依赖于 f f , 由式(2.37)”
p.63, 式(3.45)下面一行: “N1个最大” –> “ d d ′ 个最大非零”
p.63, 式(3.45)下面第2行: “矩阵.” –> “矩阵, dN1 d ′ ≤ N − 1 .”; 加边注: “最多有 N1 N − 1 个非零特征值”
p.63, 式(3.45)下面第3行: “ N1 N − 1 维” –> “ d d ′ 维”
p.63, 式(3.45)下面第4行: “ N1 N − 1 通常远小于数据原有的属性数” –> “ d d ′ 通常远小于数据原有的属性数 d d
p.100, 图5.5, 左图最上面的 “阈值0.5” –> “阈值 1.5 1.5
p.100, 图5.5, 左图最右边的 “阈值 0.5 0.5 ” –> “阈值 1.5 − 1.5
p.100, 图5.5, 左图中间的”1 -1 -1 1” –> “1 1 -1 -1”
p.125, 式(6.18): “ ys y s ” –> “ 1/ys 1 / y s
p.136, 式(6.54): 右边最后一项中的四处 “ i i ” –> “j
p.136, 式(6.54): 右边最后一项中最后的 “ x x ” –> “ xi x i
p.152, 第三个式子等号右端: “ 0.375 0.375 ” –> “ 0.625 0.625
p.153, 第3行: “ 0.038 0.038 ” –> “ 0.063 0.063
p.153, 第6行: “ 0.038 0.038 ” –> “ 0.063 0.063
p.160, 式(7.29)下面第2行: “需多少字节来描述 D D ” –> “对D描述得有多好”;加边注: “可以从统计学习角度理解, 将两项分别视为结构风险和经验风险”
p.239, 式(10.39)第二行式子: 去掉上标 “ 2 2
p.244, 第13行: “Locally” –> “Nonlinear dimensionality reduction by locally”
p.244, 第14行: “2316” –> “2326”
p.249, 式(11.2): “i=1” –> “ k=1 k = 1
p.253, 倒数第5行: “[Boyd and Vandenberghe, 2004]” –> “[Combettes and Wajs, 2005]”
p.263, 倒数第4行, 插入: “Combettes, P. L. and V. R. Wajs. (2005). “Signal recovery by proximal forward-backward splitting.” Mutiscale Modeling & Simulation,4(4):11681200. Mutiscale Modeling & Simulation , 4 ( 4 ) : 1168 − − 1200.
p.277, 式(12.29): “ E(h)E^(h) E ( h ) − E ^ ( h ) ” –> “ E(h)E^(h) | E ( h ) − E ^ ( h ) |
p.299, 式(13.9)后第三段第2行: “关于 Du D u ” –> “涉及 Cu C u

(第一版第7次印刷, 2016年4月):

p.42, 表2.5下面一段的第三行: “服从正态分布,其均值” –> “的均值”
p.42, 倒数第二行加边注: “原始检验要求 k k 较大(例如>30),若 k k 较小则倾向于认为无显著区别”

(第一版第6次印刷, 2016年4月):

p.56, 图3.1中,红色第一和第二个点的坐标互换
p.114, 图5.15中, 卷积层 16@10x10 和 采样层 16@5x5 各去掉 8 个方块
p.301, 式(13.12)的下一行: “(flTfuT)T” –> “ (fTl;fTu) ( f l T ; f u T )
p.372, 图16.2: 从”s=健康”到”s=溢水”的 “r=1” –> “r=-1”
p.376, 图16.5的边注: “第 4 行中式(16.4)的参数” –> “该参数在第4行使用”
p.385, 第二行: “在使用策略时并不需要 ϵ ϵ − 贪心” –> “而不是为了最终使用”
p.387, 倒数第二行: “ ϵ ϵ − 贪心策略, 而执行(第5行)的是原始策略” –> “原始策略, 而执行(第4行)的是 ϵ ϵ − 贪心策略”
p.393, 第四段第一行: 去掉 “[Kuleshov and Precup, 2000]和”
p.395, 去掉最后一行
p.396, 去掉第一行
p.402, 式(A.32)加边注: “机器学习中 W W 通常是对称矩阵”

(第一版第5次印刷, 2016年3月):

p.62, 第1行加边注: “ (μ0μ1)Tw ( μ 0 − μ 1 ) T w 是标量”
p.78, 图4.4, 从右往左数: 第二个叶结点改为“好瓜”,第三个叶结点改为“坏瓜”
p.85, 图4.8, 从右往左数: 第二个叶结点改为“好瓜”,第三个叶结点改为“坏瓜”
p.85, 图4.8, 中间分支底层: “硬挺”–> “硬滑”
p.89, 图4.9, 中间分支底层: “硬挺”–> “硬滑”
p.103, 最后一行的式子: 求和的” q q ” –> “l
p.399, 式(A.9): “ A1σn A 1 σ n ” –> “ Anσn A n σ n
p.400, 第1行: “(1,4,3,2)” –> “(3,1,2)”
p.402, 式(A.32)最后一行的式子中: “ 2A 2 A ” –> “ 2AT 2 A T

(第一版第4次印刷, 2016年3月):

p.59, 式(3.27)加边注: “考虑 yi{0,1} y i ∈ { 0 , 1 }

(第一版第3次印刷, 2016年3月):

p.15, 第5行: “居功” –> “厥功”
p.55, 最后一行: 式子括号中的逗号改为分号
p.125, 第3行: “减小” –> “增大”
p.125, 第4行,第6行: “减幅” –> “增幅”
p.125, 第5行: “减小” –> “增长”

(第一版第2次印刷, 2016年2月):

p.38, 第6行: “ ϵm ϵ m ′ ” –> “ (mm)ϵm ( m m ′ ) ϵ m ′
p.119, 第14行: “318–362” –> “533–536”
p.404, 式(B.3)最后一行的式子 –> “ λg(x)=0 λ g ( x ) = 0

(第一版第1次印刷, 2016年1月):

p.6, 图1.2: 图中两处”清脆” –> “浊响”
p.28, 第3段倒数第2行: “大量” –> “不少”
p.28, 边注: “例如 ……上百亿个参数” –> “机器学习常涉及两类参数: 一类是算法的参数, 亦称”超参数”, 数目常在10以内; 另一类是模型的参数, 数目可能很多, 例如……上百亿个参数. 两者调参方式相似, 均是产生多个模型之后基于某种评估方法来进行选择; 不同之处在于前者通常是由人工设定多个参数候选值后产生模型, 后者则是通过学习来产生多个候选模型(例如神经网络在不同轮数停止训练).”
p.31, 倒数第3行: “Event” –> “Even”
p.256, 第4段: “固定住 αi α i ” –> “以 αi α i 为初值”
p.256, 最后一段第1行: “ Ei= E i = ” –> “ Ei=X E i = X −
p.385, 式(16.25)和(16.26): 两处” ri r i ” –> “ Ri R i
p.385, 式(16.25)下一行: “若改用……” –> “其中 Ri R i 表示第 i i 条轨迹上自状态x至结束的累积奖赏. 若改用……”
p.386, 式(16.28)下一行: “始终为1” –> “对于 ai=π(xi) a i = π ( x i ) 始终为1”
p.386, 图16.11, 第4步: 两处 “ π(x) π ( x ) ” –> “ π(xi) π ( x i )
p.386, 图16.11, 第6步的式子 –> “ R=1Tt(Ti=t+1ri)T1i=t+1I(ai=π(xi))pi R = 1 T − t ( ∑ i = t + 1 T r i ) ∏ i = t + 1 T − 1 I ( a i = π ( x i ) ) p i
p.386, 图16.11, 边注”计算修正的累积奖赏.” –> “计算修正的累积奖赏. 连乘内下标大于上标的项取值为1.”; 去掉边注”重要性采样系数.”

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值