机器学习
一些机器学习算法
马踏飞燕&lin_li
博客地址以迁移:https://linli1724647576.github.io/
展开
-
ARIMA
时间序列自回归模型(AR)描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测自回归模型必须满足平稳性要求p阶自回归过程的公式定义:自回归模型的限制自回归模型用自身的数据来进行预测必须具有平稳性必须具有自相关性,如果自相关系数小于0.5,则不宜采用自回归只适用于预测与自身前期相关的现象移动平均模型(MA)移动平均模型关注的是自回归模型中误差项的累加q阶自回归过程的公式定义:移动平均法能有效地消除预测中的随机波动自回归移动平均模型(ARMA)自回归与移动平均结合原创 2020-08-20 21:34:44 · 218 阅读 · 0 评论 -
机器学习17:SVM支持向量机
SVM支持向量机原理推导这里省略一万字…得出结论线性不可分的情况松弛变量与惩罚函数SVM例子非线性的情况核函数存在的问题引入核函数核函数举例SVM优点训练好的模型的算法复杂度是由支持向量的个数决定的,而不是由数据的维度决定的。所以SVM不太容易产生overfittingSVM训练出来的模型完全依赖于支持向量(Support V...原创 2020-02-06 22:06:58 · 459 阅读 · 0 评论 -
机器学习16:主成分分析
主成分分析原理降维分析找到数据最重要的方向(方差最大的方向)PCA算法流程1.数据预处理:中心化???? − ????ത。2.求样本的协方差矩阵1m ????????????。3.对协方差1m ????????????矩阵做特征值分解。4.选出最大的k个特征值对应的k个特征向量。5.将原始数据投影到选取的特征向量上。6.输出投影后的数据集。通过数据集的协方差矩阵及其特征值分析,我们可以得到协方差矩阵的特征向量和特征...原创 2020-02-06 16:00:52 · 245 阅读 · 1 评论 -
机器学习15:聚类DBSCAN
聚类DBSCAN原理????邻域:给定对象半径????内的区域称为该对象的????邻域。核心对象:如果给定 ???? 邻域内的样本点数大于等于Minpoints,则该对象为核心对象。直接密度可达:给定一个对象集合D,如果p在q的????邻域内,且q是一个核心对象,则我们说对象p从q触发是直接密度可达的(directly density-reachable)。密度可达:集合D,存在一个对象链p1,p2…pn,p1=q...原创 2020-02-06 14:37:40 · 224 阅读 · 1 评论 -
机器学习14:聚类K-MEANS优化
聚类K-MEANS优化算法分析1对k个初始质心的选择比较敏感,容易陷入局部最小值。例如,我们上面的算法运行的时候,有可能会得到不同的结果,如下面这两种情况。K-means也是收敛了,只是收敛到了局部最小值:K-Means算法优化1使用多次的随机初始化,计算每一次建模得到的代价函数的值,选取代价函数最小结果作为聚类结果。算法分析2k值的选择是用户指定的,不同的k得到的结果会有挺大的...原创 2020-02-06 13:43:14 · 382 阅读 · 0 评论 -
机器学习13:聚类Mini Batch K-Means
聚类Mini Batch K-MeansMini Batch K-Means原理Mini Batch K-Means算法是K-Means算法的变种,采用小批量的数据子集减小计算时间。这里所谓的小批量是指每次训练算法时所随机抽取的数据子集,采用这些随机产生的子集进行训练算法,大大减小了计算时间,结果一般只略差于标准算法。该算法的迭代步骤有两步:1:从数据集中随机抽取一些数据形成小批量,把他...原创 2020-02-05 23:39:36 · 1150 阅读 · 0 评论 -
机器学习12:聚类K-MEANS
聚类 K-meansK-MEANS原理算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果步骤1.先从没有标签的元素集合A中随机取k个元素,作为k个子集各自的重心。...原创 2020-02-05 23:35:31 · 273 阅读 · 0 评论 -
机器学习11:贝叶斯分析
集成学习贝叶斯分析原理数理统计学处理的信息总体信息:当前总体样本符合某种分布。比如抛硬币,二项分布。学生的某一科的成绩符合正态分布。样本信息:通过抽样得到的部分样本的某种分布。抽样信息=总体信息+样本信息基于抽样信息进行统计推断的理论和方法称为经典统计学。先验信息:抽样之前,有关推断问题中未知参数的一些信息,通常来自于经验或历史资料。基于总体信息+样本信息+先验信息进行统计推断的...原创 2020-02-05 17:57:17 · 417 阅读 · 0 评论 -
机器学习10:集成学习
集成学习bagging原理算法实现# 导入算法包以及数据集from sklearn import neighborsfrom sklearn import datasetsfrom sklearn.ensemble import BaggingClassifierfrom sklearn import treefrom sklearn.model_selection imp...原创 2020-02-05 10:13:21 · 269 阅读 · 0 评论 -
机器学习:BP神经网络实现手写数字识别
BP神经网络-手写数字识别导入相关的包from sklearn.datasets import load_digitsimport pylab as plimport numpy as npfrom sklearn.preprocessing import LabelBinarizerfrom sklearn.model_selection import train_test_spli...原创 2020-02-15 21:09:00 · 1523 阅读 · 0 评论 -
NBA球队实力聚类分析
NBA球队实力聚类分析导入模块from sklearn.cluster import KMeansimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.preprocessing import MinMaxScaler读取数据data = pd.read_csv('nba ...原创 2020-02-27 22:14:38 · 1673 阅读 · 1 评论 -
机器学习9:决策树CART
决策树CART原理优缺点优点:小规模数据集有效缺点:处理连续变量不好类别较多时,错误增加的比较快不能处理大量数据算法实现from sklearn import treeimport numpy as np# 载入数据data = np.genfromtxt("cart.csv", delimiter=",")x_data = data[1:,1:-1]...原创 2020-02-04 21:39:56 · 232 阅读 · 1 评论 -
机器学习8:决策树ID3
决策树ID3原理熵(entropy)概念–衡量不确定性的大小一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,或者是我们一无所知的事情,需要了解大量信息->信息量的度量就等于不确定性的多少。信息熵的计算ID3算法C4.5算法算法实现from sklearn.feature_extraction import DictVect...原创 2020-02-04 19:51:51 · 302 阅读 · 1 评论 -
机器学习7:BP神经网络
机器学习6:BP神经网络BP神经网络原理激活函数sigmoidTanh函数和Softsign函数ReLU函数算法实现BP网络解决异或问题import numpy as np#输入数据X = np.array([[1,0,0], [1,0,1], [1,1,0], [1,1,1]])...原创 2020-02-04 13:07:36 · 477 阅读 · 0 评论 -
机器学习6:单层感知器
机器学习5:单层感知器单层感知器原理感知器学习规则关于学习率????取值一般取0-1之间学习率太大容易造成权值调整不稳定学习率太小,权值调整太慢,迭代次数太多模型收敛条件误差小于某个预先设定的较小的值两次迭代之间的权值变化已经很小设定最大迭代次数,当迭代超过最大次数就停止线性神经网络线性神经网络在结构上与感知器非常相似,只是激活函数不同。在模型训练时把原来的si...原创 2020-02-02 23:29:51 · 701 阅读 · 1 评论 -
机器学习5:KNN
机器学习5:KNNKNN原理为了判断未知实例的类别,以所有已知类别的实例作为参照选择参数K计算未知实例与所有已知实例的距离选择最近K个已知实例根据少数服从多数的投票法则(majority-voting),让未知实例归类为K个最邻近样本中最多数的类别算法缺点算法实现Iris数据集手工实现# 导入算法包以及数据集import numpy as npfrom sklea...原创 2020-02-02 14:29:28 · 279 阅读 · 1 评论 -
机器学习4:逻辑回归
机器学习4:逻辑回归逻辑回归原理决策边界逻辑回归的代价函数梯度下降法多分类问题逻辑回归正则化正确率、召回率、F1算法实现梯度下降—逻辑回归手工实现import matplotlib.pyplot as pltimport numpy as npfrom sklearn.metrics import classification_report ...原创 2020-02-01 23:50:25 · 319 阅读 · 0 评论 -
机器学习3:岭回归~LASSO回归~弹性网
机器学习3:岭回归 ~LASSO回归 ~弹性网岭回归原理算法实现手工实现import numpy as npfrom numpy import genfromtxtimport matplotlib.pyplot as plt # 读入数据 data = genfromtxt(r"longley.csv",delimiter=',')print(data)# ...原创 2020-02-01 15:49:04 · 681 阅读 · 1 评论 -
机器学习2:多元线性回归~多项式回归~标准方程法~特征缩放与交叉验证~过拟合正则化
机器学习2:多元线性回归~多项式回归 ~标准方程法 ~特征缩放与交叉验证 ~过拟合正则化多元线性回归原理算法实现手工实现import numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D#载入数据data=np.genfromtxt(r"Delivery.cs...原创 2020-01-31 17:45:49 · 1925 阅读 · 3 评论 -
机器学习1:一元线性回归
机器学习1:一元线性回归原理一元线性回归y = b + k????这个方程对应的图像是一条直线,称作回归线。其中,k为回归线的斜率, b为回归线的截距。代价函数线性回归本质就是寻找代价函数最小的斜率和截距相关系数决定系数梯度下降法不同的初始点可能会有不同的路径梯度下降法求一元回归方程斜率和截距学习率不能太小,也不能太大,可以多尝试一些值0.1,0.03,0.01,0...原创 2020-01-30 18:22:55 · 2122 阅读 · 1 评论