线性回归(linear regression)
逻辑回归(logistic regression):用于分类
机器学习:
1. 监督学习(有标签)
a. 分类:根据数据样本上抽取的特征,判定其属于有限的类别【离线值】
> 辣鸡邮件识别
> 文本情感褒贬分析
> 图像内容识别
b.回归:根据数据样本上抽取出的特征,预测**连续值**结构
> 芳华票房值
2. 无监督学习(无标签)
a.聚类:根据数据样本上抽取出的特征,挖掘出关联关系
3 . 强化学习(结果Y是一个有延迟的显现)
线性回归
单变量的简单的列子
- 身高体重
- 房价与面积
多变量的情况
###### 损失函数(loss function)
除以2是为了求导时约去平方
用来衡量算法的好坏
最小化损失函数:(求损失函数最小值的问题)
怎么样去降低损失函数:1. 梯度下降法
问题1: 初始位置如何确定
2:小球如何滚
超参数:学习率过大会错过最低点,学习率过大速度太慢
欠拟合:模型的学习能力太差
过拟合:模型对训练样本的拟合很好,但对测试集的拟合太差。一般是因为模型的容量太大了。也可能是数据有噪声。----》正则化
入:是一个超参数需要通过实验去算
逻辑回归
sigmoid
有了函数,怎么做优化?
这个损失函数的特性不太好,容易出现局部最优解,所以用另一个函数。
为什么用log:一批样本的P越大越好,P1*P2【0-1之间】越乘越小,如果不做可能会在计算机中溢出
加负号,增加损失函数的含义,评估的是差异度
正则化:控制浮动幅度
用二分类的思想解决多分类问题
one vs one:两两之间的构建
one vs rest:是否