- 分类Classification分为正类和负类
(规定谁是正谁是负无所谓)
吴恩达老师举例几个例子:判断邮箱是否是垃圾邮箱 一个在线交易是否是诈骗 一个肿瘤是良性的还是恶性
如果我们用之前学习的linear regression(线性回归(PS:linear是直线的意思))去做分类其实不太适合 为什么呢?
1)因为我们要分类 得到的数想要的是0或1 或者多分类问题的0 1 2 3,所以我们想将分类器的输出值压缩到[0,1]上(如果是0,1分类问题)但是linear regression他生成出来的值是连续的值 可以大于1也可以小于1 也可以在0~1之间 生成后我们还需要人为去规定一个阈值去判断哪种的值归为1哪种的归为0 所以很难做到自动化去判断这个临界值在哪儿
2)
根据训练集我们可以用一条直线hθ(x)=θ^TX去拟合数据 这条粉色的线就是hθ(x)=θ^TX 直线看上去不错 我们以y=0.5来区分肿瘤
这样得到的分类结果非常理想
但是如果多一个样本 这些样本通过线性回归就会拟合出来蓝色的线
现在如果仍然将阈值设为0.5 那y对过去x轴就在绿点 此时绿点右侧被预测为正,左侧预测为负
那这毫无疑问是一个差的回归了 因为上面5个是恶性的样本有2个被分为良性了 而我们要想得到正确结果需要的是蓝色的那条竖线去分
2.Logistic Regression逻辑回归是一种专门的分类算法 和线性回归一样生成的也是连续的值 但这个值是0~1里的值 为什么能压缩到0~1呢?
是因为我们使用的假设函数Hypothesis的名字叫Sigmoid function/Logistic Function他长这样:
hθ(x)=g(θ^tX) 其中 实际上就是给Linear regression套了一个sigmoid函数
假设函数Hypothesis也可以写为