20140409-Supervised learning- Generalized liner Models

  1.1.广泛线性模型(Gerneralized liner Models)

\hat{y}是要预测的值

\hat{y}(w, x) = w_0 + w_1 x_1 + ... + w_p x_p

我们把向量 w = (w_1,..., w_p) 命名 为coef_ , w_0 命名为 intercept_

1.1.1最普通的最小二乘法(Ordinary Least Squares)

线性回归 将自动运算数组X,y 把系数w存在线性模块的coef_中

\underset{w}{min\,} {|| X w - y||_2}^2 为w的计算公式

w的一组值是训练数据中各组X*w-y**2的值的总合最小的,表述不太清楚  靠理解了  他的example代码很nice  运行了就能懂是啥意思

>>> from sklearn import linear_model
>>> clf = linear_model.LinearRegression()
>>> clf.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
LinearRegression(copy_X=True, fit_intercept=True, normalize=False)
>>> clf.coef_
array([ 0.5,  0.5])
上诉代码的数学含义是 [0,1,2] 对应这[0,0],[1,1],[2,2]三组运算 ,前者是后者的运算结果 coef_的值是系数w  

eg:   0=0*0.5+0*0.5

1=1*0.5+1*0.5

2=2*0.5+2*0.5

coef_的值是我们的线性回归方法自动计算出来的 用来预测新的数据 比如 clf.predict([[9,9]])   那么它的结果就是 9*0.5+9*0.5=9  结果是array([9.])


上述的实验是在理想实验数据的环境下 如果数据集不是正态分布的 那么他的结果也会随之不是那么准确

1.1.1.1 最普通最小二乘法的时间复杂度,训练向量X的矩阵如果大小为size(n,p)  就如上X=[[0,0],[1,1],[2,2]] 那么他的矩阵大小就是(3,2)

时间复杂度O(n p^2) 其中 n>=p.

我是觉得最小二乘法的线性回归 除非是数据密集.如果数据是稀松的,那么他的准确率似乎不高

1.1.2 Ridge Regression(脊状回归)

Ridge回归解决了一些关于Ordinary Least Squares的系数大小处罚的问题.

\underset{w}{min\,} {​{|| X w - y||_2}^2 + \alpha {||w||_2}^2}

这里a>=0 ,它是一个复杂的系数控制收缩量:a的值越大,收缩量就越大,因此系数变成更有共线性.

1.1.2.1 脊状时间复杂度:和最小二乘法一样

1.1.2.2设置正则化参数:广义交叉验证

1.1.3拉索算法 (Lasso)

1.1.3.1设置正则化参数

1.1.3.1.1 使用交叉验证

1.1.3.1.2以信息为前提的基本模型

1.1.4 Elastic Net 弹性网

1.1.5 Multi-task Lasso 多任务拉索算法

1.1.6 Least Angle Regression 最小角度回归

1.1.7 LARS Lasso  LARS算法的Lasso

1.1.8 Orthogonal Matching Pursuit (OMP) 垂直匹配追踪

1.1.9 Bayasian Regression  贝叶斯回归算法

1.1.9.1 贝叶斯脊形回归

1.1.9.2 自动关联确定(ARD

1.1.10 逻辑回归

1.1.11 Stochastic Gradient Descent  随机斜率下降 (SGD)

1.1.12 Perceptron 感知机

1.1.13  Passive Aggressive Algorithms 被动的有上进心的算法



自我监督学习是一种机器学习方法,通过对数据进行合理的预测任务,从中获得有用的表示。与传统的监督学习不同,自我监督学习不需要人工标注的标签来指导训练,而是利用数据自身的信息进行训练。 自我监督学习的基本思想是从未标记的数据中构造有意义的标签,然后将这些标签用作训练数据,以学习有用的特征表示。通过对输入数据进行某种形式的变换或遮挡,可以生成一对相关的样本。其中一个样本称为正样本,另一个则被视为负样本。例如,在图像领域中,可以通过将图像进行旋转、裁剪或遮挡等变换来生成正负样本对。模型的目标是通过学习从一个样本到另一个样本的映射,从而使得正样本对之间的相似度更高,负样本对之间的相似度更低。 自我监督学习在许多任务中都取得了很好的效果。例如,在自然语言处理任务中,可以通过遮挡句子中的某些单词或短语来生成正负样本对,然后通过学习从一个句子到另一个句子的映射来进行训练。在计算机视觉任务中,可以通过图像的旋转、裁剪、遮挡或色彩变换等方式来生成正负样本对。 自我监督学习的优点是不需要人工标注的标签,可以利用大量的未标记数据来进行训练,从而扩大训练数据的规模。此外,自我监督学习还可以通过学习到的特征表示来提高其他任务的性能,如分类、目标检测和语义分割等。 总之,自我监督学习是一种有效的无监督学习方法,通过构造有意义的预测任务,从未标记的数据中学习有用的特征表示。它在各种任务中都有广泛的应用,并具有很高的潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值