目录
方法二: 极大似然法maximum likelihood method
3.3 对数几率回归 logistic regression
3.4 线性判别分析(LDA)Linear Discriminant Analysis
3.1 基本形式
3.2 线性回归 linear regression
离散属性: 若属性值存在序order关系, 可将离散值(高,矮)转为连续值(1,0); 若无序关系, 可转为k维向量(二分类化)
一元线性回归
多元线性回归
非满秩矩阵正则化regularization
确定w, b
方法一: 最小二乘法(均方误差 square loss)
闭式解closed-form
方法二: 极大似然法maximum likelihood method
对数线性回归log-linear regression
广义线性模型generalized linear model在联系函数link function g() = ln() 时的特例
机器学习三要素:
- 模型:根据具体问题,确定假设空间
- 策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)
- 算法:求解损失函数,确定最优模型
3.3 对数几率回归 logistic regression
针对二分类任务, 将实值z转为0/1, 单位阶跃函数unit-step function
sigmoid function
优点
- 直接建模,无需假设分布;
- 不仅预测类别,还可预测近似概率辅助决策;
- 任意阶可导的凸函数,可直接求取最优解
3.4 线性判别分析(LDA)Linear Discriminant Analysis
3.5 多分类学习
拆分策略
一对一OvO
两个数据集的n个类别两两配对, N(N-1)/2 个二分类结果, 预测结果最多的类别作为最终结果. 存储/测试时间成本高, 训练时间成本低.
一对多OvR
一个类T, 其他类F, 考虑置信度, 选置信度最大的类别作为最终结果.
多对多MvM
非随意取, 使用纠错输出码(ECOC)error correcting output codes, N个类别M次划分T/F, 比较预测/实际编码, 取距离最小的作为最终结果
3.6 类别不平衡class imbalance
原因
不同类别中样例数量差别大, 影响学习预测效果
策略
再缩放rescaling, ∵假设"训练集是真实样本总体的无偏采样"不成立
方法
- 欠采样under-sampling: 正少反多, 少采反. 时间成本低, 代表算法EasyEnsemble集成学习, 将反划分为若干个集合分别欠采
- 过采样over-sampling: 正少反多, 多采正. 时间成本高, 注意不能简单重复采样,代表算法SMOTE 用插值采样
- 阈值移动threshold-moving: 不增不减, 乘以观测几率cost+/cost-调整预测值
Task2 学习心得
- 没看清任务内容, 两天时间把C3+C4都看了, C3内容多公式多, 一口气容易消化不良
- 果然数学的尽头没有数字 = 我看不懂公式, 只能尽量用文字表达
- 继续吐槽图+文的表述, 逻辑不清晰, 预剪枝反复看了几遍才理解, 又菜又气
- 公式部分还需要重刷视频补充笔记