回归
回归定义
回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,回归通常是对真实关系的一种逼近预测,一般决定系数R平方来评估模型的好坏
回归方法
- 线性回归,顾名思义很简单,即在已有数据集上通过构建一个线性的模型来拟合该数据集特征向量的各个分量之间的关系,对于需要预测结果的新数据,我们利用已经拟合好的线性模型来预测其结果。
关于线性回归的方法,现在使用得比较广泛的就是梯度下降和最小二乘法。 - 非线性回归 线性模型无法很好的拟合目标数据曲线,这就需要引入非线性回归模式。大部分可以转换为线性回归,
- 偏最小二乘回归
- 主成分回归:类似于主成分分析,将具有相关性的多维变量降维到互不相关的少数几维变量上,可以处理变量之间具有相关性的情况。
- 逻辑回归 如果没有使用sigmoid函数,到这里就输出的话,他就是回归方法,如果加入了sigmoid函数,再输出分类结果,就是分类方法。(个人理解)
分类
分类定义
拿最简单的二分类,非此即彼,也就是给事物打上一个标签,是就是,不是就不是,没有近似的概念
算法
-
逻辑回归分类,回归+Sigmoid函数。一些数据点,我们对这些点进行拟合,得到一条最佳拟合线,这个拟合过程叫做回归,回归完成时得到最佳回归系数w,w是一个向量,向量维度为样本特征数+1,回归公式为:z=w0x0+w1x1+…+wnxn,这个公式就是模型的分界线,也叫判定边界,将待测样本的特征代入回归公式得到z值以后,代入Sigmoid函数,得到0或1,从而得到分类类别。当样本只有两个特征时,判定边界是一条二维平面上的直线,当样本有三个特征时,判定边界是三维空间的一个平面,当样本特征多于三个时,判定边界将会是多维的,我们统一把判定边界叫做超平面,这个概念在支持向量机中是同一个意思
-
SVM(支持向量机)是一个分类算法(机器学习中经常把算法称为一个“机器”),它的目标是找到图中实线所表示的决策边界,也称为超平面(Hyperplane)
支持向量(Support vectors):支持向量就是图中虚线穿过的数据点(两个×与一个o),直观上来看,它们确定了超平面的位置——超平面与过同一类的两个支持向量(两个×)的直线平行,并且两类支持向量到超平面的距离相等.
与logistic回归的对比:SVM与logistic回归用的是相同的模型,但是处理方式不一样——logistic回归用概率的方式求解模型(最大似然估计),SVM从几何的角度解析;另外在logistic回归中,每一个数据点都会对分类平面产生影响,在SVM中它却只关注支持向量(如果支持向量无变化,增加或者删除一些远处的数据点,产生的超平面还是一样的)——所以产生了这两个不同的算法,但是它们还是比较相似的. -
KNN
-
决策树
-
神经网络
-
二乘法
-
最小二乘法 二乘就是平方,也就是真实值与测量值之间的残差的平方,再对一整个数据集求和,也就是整的误差平方,
-
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标
正规方程
损失函数
协方差
今天第一天啊,啥玩意啊,剩下来的后面再说吧
不完全参考
http://blog.sina.com.cn/s/blog_4b22362c0102yb4b.html
https://blog.csdn.net/shareviews/article/details/82929205
数据标准化处理
大量不同的指标变量,每个指标的性质、量纲、数量级等特征,均存在定的差异。由于各个指标的属性不同,无法直接在不同指标之间进行比较和综合。比如有的指标越大越好,有的越小越好,就需要是所有指标作用方向一致化(比如取到数,比如取临界值后再与临界值做差)等
为了统一比较的标准,保证结果的可靠性,我们在分析数据之前 ,需要对原始变量进行一定的处理 ,即数据的标准化处理,将原始数据转化为无量纲、无数量级差异的标准化数值,消除不同指标之间因属性不同而带来的影响,从而使结果更具有可比性。
https://www.jianshu.com/p/6ada34655862 #Sklearn
https://zhuanlan.zhihu.com/p/32242331 #numpy,这哥们写的不少,富强果然不靠MATLAB