datawhale-吃瓜教程-线性模型

小740

已于 2022-10-20 10:38:41 修改

阅读量352

点赞数

文章标签：机器学习逻辑回归算法

于 2022-10-17 23:00:34 首次发布

本文链接：https://blog.csdn.net/ego_grow/article/details/127360838

版权

datawhale-吃瓜教程-线性模型

提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加
Task01：概览西瓜书+南瓜书第1、2章
Task02：详读西瓜书+南瓜书第3章
Task03：详读西瓜书+南瓜书第4章
Task04：详读西瓜书+南瓜书第5章
Task05：详读西瓜书+南瓜书第6章

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

基本形式

提示：这里可以添加本文要记录的大概内容：

给定由n个属性描述的示例 = (X1; x2;…; Xd) 其中均是在第个属性上的取值，线性模型(linear model) 试图学得一个通过属性的线性组合来进行预测的函数

提示：以下是本篇文章正文内容，下面案例可供参考

一、术语及符号解释

线性模型：一个通过属性的线性组合来进行预测的函数。
线性回归：学得一个线性模型以尽可能准确地预测实值输出标记。
多元线性回归：学得一个多个属性的线性组合的线性模型来进行预测并输出标记。
对数线性回归：将输出标记的对数作为线性模型逼近的目标。形式上仍是线性回归，实质上是在求取输入空间到输出空间的非线性函数映射。此时的映射是指数映射。
广义线性回归：y = g^-1(w^Tx + b), 其中g(.)为联系函数，根据联系函数的不同，可进行不同的输入空间到输出空间的映射。

对于数据中的属性转换有以下形式：
	独热编码：将属性中无序的属性值转化为向量形式，比如颜色有红，绿，蓝三种属性值，那么当颜色=红色时，对应的独热编码为（1，0，0）。
	标签编码：当类别特征内部有序的情况下才好使用，简单粗暴，方便快捷。比如小学生，初中生，高中生，大学生可对应编码为0，1，2，3。
	序号编码：处理一个数据集都是类别特征的编码方法（标签编码是针对数据集中某个特征内部，非全部），并且其类别特征内部取值是具有大小顺序的情况，因此该方法用的较少。
	频数编码：将类别特征内部取值用该取值出现的频数替换。比如某个分类中’Peking’出现了10次，那么’Peking’就会被替换为10.。
符号“min”表示求目标函数的最小值。
符号“argmin”表示求使目标函数达到最小值时的参数值。
最小二乘法：基于均方误差最小化来进行模型求解的方法。

利用线性回归模型进行分类任务：找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
对数几率函数：对于二分类问题，它是一种“Sigmoid”函数（y = 1 / (1 + e^-z, z = w^Tx + b)），将z值转化为一个接近0或1的y值，也可转换为函数ln(y / 1-y) = w^Tx + b。
对数几率回归：用线性回归模型的预测结果去逼近真实标记的对数几率。
几率：y / (1 - y), 正例可能性与负例可能性的比值。
对数几率：对几率取对数，当正例可能性=负例可能性=0.5时，对数几率为0；