ML
风 先生
这个作者很懒,什么都没留下…
展开
-
Stanford机器学习__Lecture notes CS229. Linear Regression(1)
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括原创 2016-08-26 17:41:47 · 2555 阅读 · 0 评论 -
Stanford机器学习__Lecture notes CS229. Logistic Regression(逻辑回归)(2)Perceptron Learning Algorithm
Stanford机器学习__Lecture notes CS229. Logistic Regression(逻辑回归)(2)这里其实我们要说的是感知器算法。 之所以要把感知器算法(Perceptron Learning Algorithm)放在这里,是因为这两个算法在形式上的相似性。我们在logistic回归中,考虑到二分类问题,其输出标记y∈(0,1),而线性回归模型产生的预测值H(x)=wT原创 2016-09-10 00:49:16 · 1087 阅读 · 0 评论 -
Stanford机器学习__Lecture notes CS229. Linear Regression(3)
多项式线性拟合:前面我们建立假设H0(θ) = θ0 + θ1x对数据进行了简单线性回归的拟合。 但事实上这样的假设存在着极大的主观性,从数据分布上来看(人工数据,从开始我就知道假设H0不可能满足分布)。为了得到更合适的回归拟合,我们提出了三种不同的特征的选择方式,结果如下: 左图,假设为H0(θ) = θ0 + θ1x ,我们可以看到数据不能很好的和数据相吻合。 假设变量y与x的关系为n次原创 2016-08-28 11:59:58 · 877 阅读 · 0 评论 -
Stanford机器学习__Lecture notes CS229. Logistic Regression(逻辑回归)(1)
Stanford机器学习__Lecture notes CS229. Linear Regression(1)前面这一部分,我们谈了简单线性模型。例如,对于样例(x,y),当我们希望线性模型的预测值逼近真实标记y时,就得到了线性回归模型,为便于观察,我们把线性回归模型简写成: y=wT+b\begin{equation}y=w^{T}+b\end{equation}可否令模型预测值逼近y的原创 2016-09-05 11:47:34 · 2162 阅读 · 0 评论 -
数据的标准化
在机器学习中领域中的数据分析之前,通常需要将数据标准化,利用标准化后得数据进行数据分析。数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。标准化的定义:标准化用一句话说就是:把数据经过处理后使之限定在一定的范围内。 那么我们为什么要原创 2016-08-18 12:29:55 · 1094 阅读 · 0 评论 -
主成分分析(Principal components analysis)
PCA(Principal Component Analysis)不仅仅是对高维数据进行降维,更重要的是经过降维去除了噪声,发现了数据中的模式。PCA把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,而不是简单地从n维特征中去除其余n-k维特征。这些线性组合最大化样本方差,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。PCA的理论意义:PCA将n个特征降转载 2016-08-24 21:55:28 · 890 阅读 · 0 评论 -
Bias-Variance Tradeoff(权衡偏差与方差)
对学习算法除了通过实验估计其泛化性能,我们还希望了解“为什么”具有这样的性能。“偏差-方差分解”(bias-variance decomposition)是解释学习算法泛化性能的一种重要工具。偏差和方差理解偏差和方差这两个不同来源导致的误差可以帮助我们更好得拟合数据来得到更为精确的模型。概念性定义 由偏差引起的误差:我们将模型的期望(或平均)预测和我们正在试图预测正确值之间的差定义为偏差。当然,如原创 2016-09-01 17:16:33 · 28416 阅读 · 3 评论 -
Stanford机器学习__Lecture notes CS229.Regularization and model selection(规则化和模型选择)
Stanford机器学习__Lecture notes CS229.Regularization and model selection(规则化和模型选择)问题 模型选择问题:对于一个学习问题,我们实现并不会知道他的分布规律到底是什么,我们需要做出多种模型假设。比如要拟合一组样本点,可以使用线性回归y=θTxy=\theta^Tx,也可以用多项式回归y=θTx1→my=\theta^Tx^{1→原创 2016-09-09 12:51:07 · 946 阅读 · 0 评论 -
Stanford机器学习__Lecture notes CS229. Linear Regression(2)
Stanford机器学习__Lecture notes CS229. Linear Regression(1) 我们之前用简单最小二乘法解决了简单线性回归的问题,那么我们为什么选择最小二乘法作为目标函数,为什么要让模型的预测数据与实际数据之差的平方而不是绝对值和最小来优化模型参数?最小二乘法的概率解释(Probabilistic interpretation)假设:我们知道,大部分模型都是理想状态原创 2016-08-28 00:46:52 · 1157 阅读 · 0 评论 -
gridsearchcv(网格搜索)&kfold validation(k折验证) in ML
网格搜索算法是一种通过遍历给定的参数组合来优化给定模型性能的方法。以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度。于是我们会给出一系列的最大深度的值,比如 {‘max_depth’: [1,2,3,4,5]},我们会尽可能包含最优最大深度。不过,我们如何知道哪一个最大深度的模型是最好...转载 2018-05-21 02:27:26 · 5372 阅读 · 1 评论