shimmer_boy-CSDN博客

原创随机梯度下降法

随机梯度下降法相对于批量梯度下降法的优点：1.跳出局部最优解2.更快的运行速度批量梯度下降法，每次计算梯度使用全部样本，随机梯度下降法，每次计算梯度使用一个样本。import numpy as npdef J(x,y,theta): try: return np.sum((y-x.dot(theta))**2) / len(theta) except:...

2020-03-22 10:46:46 275

原创多元正态统计

一元正态分布回顾：如果随机变量X服从均值a，方差为b^ 2的正态分布，记为X~N(a,b^2)，则其密度函数为均值决定密度曲线的中心位置，方差决定了密度曲线的离散程度。性质：1.整个分布可以仅用均值及方差来刻画。2.如果变量之间不相关，则他们相互独立3.经典统计检验通常基于正态分布假设4.正态分布可以模拟大量自然现象5.即使数据不服从正态分布，样本均值在大样本下也可由其近似（中心极限...

2020-03-12 19:13:58 535

原创卡方检验

卡方检验是一种拟合优度检验，用于检验样本内每一类别的实际观察数目与某条件下的理论期望数目是否显著差异。常用于定类尺度数据，当期望值小于5时，需要合并。卡方检验，它的原假设Ho：行分类向量与列分类向量无关H1：行分类向量与列分类向量有关设以下统计量：fi为样本资料的计数，ei为Ho为真时的理论数值（期望值）。检验统计量服从自由度为k-1的卡方分布。最常用的是检验某种已知比例，或是否为...

2020-03-12 11:32:55 931

原创利用梯度下降法实现线性回归--python实现

利用梯度下降法代替最小二乘法，求线性回归方程。首先引用库import numpy as npimport matplotlib.pyplot as plt定义相应的x和ynp.random.seed(666)x = np.random.random(size=100)y = x * 3. + 4. + np.random.normal(size=100)绘制散点图封装算法·...

2020-03-09 18:50:45 339

梯度下降是迭代法的一种，可以用于求解最小二乘问题，不是一个机器学习算法，而是一种基于搜索的最优化方法。在求解无约束优化问题时，梯度下降法是最常用的一种方法之一，最小二乘法也是一种。在直线方程中，导数代表斜率。在曲线方程中，导数代表切线斜率。切线斜率∇wJ的正负，也代表函数增大的方向。设-η∇wJ，η称为学习率，影响获得最优解的速度，当取值不适当时，得不到相应的值。它是一个超参数。η太小时，降...

2020-03-09 13:03:55 328

原创 KNN算法中的超参数--scikit-learn,python

1.超参数：在机器学习中，超参数是指在机器学习之前，提前设置好的参数。而不是由数据训练出来的。2.KNN算法通过测量观测点与相邻最近点之间的距离，判断观测点所属的类别，而测量距离的方法有很多种。有曼哈顿距离（又称“L1范数”），欧拉距离（又称“L2范数”）以及明科夫斯基距离等。3.从上述的距离公式中，我们可以得到他们公式的共同点，有一个参数p，曼哈顿距离公式的参数p=1，欧拉距离公式的参数p=...

2020-02-29 17:04:59 1922

原创 KNN算法--python实现

1.KNN算法作为分类的算法，也被成为k近邻算法。2.KNN算法的核心思想是新增一个样本在特征空间中，k个最近的样本大多数是一类的，那么这个样本也属于这一类。这里我们利用欧拉公式计算样本间的距离。import mathimport numpy as npfrom sklearn import datasetsimport matplotlib.pyp...

2020-02-27 12:45:28 190

原创 python机器学习基本概念--关于数据

数据的整体叫数据集（data set）。数据集的每一行数据成为样本。出最后一列外，其余每一列都是一个特征。最后一列成为标记。仅有所有特征组成的数据集，每一行都是一个特征向量(X^i）。特征空间为每一个特征向量在高维空间中，所形成的一个点，所有的点构成了特征空间。分类的本质就是划分特征空间上的点。...

2020-02-26 11:22:06 170

qq_45779388的博客