西瓜书读书笔记
本读书笔记跳过一些较为基础的概念,主要记录博主认为比较容易忽略或不好理解的地方和一些不太熟悉的概念
归纳偏好
- 对于同一个训练集训练处的不同模型,选择最简单的,最容易理解的模型称为奥卡姆剃刀。
模型的评估与选择
- 测试集的划分(留出法、交叉验证法、自助法)
- 留出法划分时随机划分,对于类似于金融数据可以按照时间顺序进行划分
- 自助法属于有放回的随机抽样,样本在m次采集中始终没被采集到的概率是36.8%(证明:重要极限:)
- 验证集
- 验证集的作用主要是为了调参,如果一直用测试集调参,可能会导致模型的泛化能力较差
- 性能度量
- 均方误差( E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum_{i=1}^m\mathbb{I}(f(\boldsymbol{x_i})\neq y_i) E(f;D)=m1∑i=1mI(f(xi)=yi) ) 、增加概率维度的均方误差 ( )、增加概率维度的均方误差( )、增加概率维度的均方误差( E ( f ; D ) = ∫ x ∼ D I ( f ( x ) ≠ y ) p ( x ) d x E(f;D)=\int_{\boldsymbol{x}\sim D}\mathbb{I}(f(\boldsymbol{x})\neq y)p(\boldsymbol{x})d\boldsymbol{x} E(f;D)=∫x∼DI(f(x)=y)p(x)dx)
- P-R图中查全率和查准率成反比的关系
- 选择最佳的阈值
- F 1 = 2 × P × R P + R = 2 × T P m + T P − T N F1=\frac{2 \times P \times R}{P + R}=\frac{2\times TP}{m+TP-TN} F1=P+R2×P×R=m+TP−TN2×TP(p、r的调和平均数)
- 选择R=P时候的阈值
- Fbeta= ( 1 + β 2 ) × P × R ( β 2 × P ) + R \frac{(1+\beta^2) \times P \times R}{(\beta^2 \times P) + R} (β2×P)+R(1+β2)×P×R(β>0度量了查全率对查准率的相对重要性)
- n次二分类实现的多分类问题
- 宏查准率( 1 n ∑ i = 1 n P i \frac{1}{n}\sum_{i=1}^{n}P_{i} n1∑i=1nPi)、微查准率(平均TP、FP、FN、TN求P)
- ROC与AUC
- 真正例率TPR、假正例率FPR,两者同向变化,TPR-FPR围成的面积是AUC
- AUC=1-lrank
- 代价敏感错误率和代价曲线
- 当判断阈值threshold一定时,就确定了一组相应的混淆矩阵,而根据样例中的正样例数量的比率的不同,产生了不同的代价期望
- 据正例在样本中的比值的不同,找到使得代价总期望最小的模型的阈值