机器学习模型-基于python

Hebe's

已于 2024-04-07 11:54:06 修改

阅读量642

点赞数

分类专栏：数据分析 python 文章标签：机器学习数据挖掘数据分析

于 2021-04-19 11:25:09 首次发布

本文链接：https://blog.csdn.net/csdnbt/article/details/115844580

版权

数据分析同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

python

4 篇文章 0 订阅

订阅专栏

1 机器学习简介

1.1 机器学习 vs 数据挖掘

机器学习：属于人工智能研究与应用的一个分支领域，其目的更偏向于是研究一种为了让计算机不断从数据中学习知识，而使机器学习得到的结果不断接近目标函数的理论。机器学习是多领域交叉，涉及概率论、统计学，算法复杂度理论等多门学科，广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、垃圾邮件过滤、推荐系统、知识图谱、医学诊断、检测信用卡欺诈、语音和手写识别、战略游戏和机器人运用等。

【注】机器学习sklearn库的共分为6大部分，分别用于完成分类、回归、聚类、降维、模型选择（sklearn.model_selection）以及数据的预处理（sklearn.preprocessing）。
在这里插入图片描述

数据挖掘：一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。机器学习为数据挖掘提供了理论方法，而数据挖掘技术是机器学习技术的一个实际应用。“数据挖掘十大算法”包括：K均值（K-mean）、最大期望（EM）、关联分析（Apriori）、决策树（C4.5）、支持向量机（SVM）、集成（AdaBoost）、k近邻（kNN）、朴素贝叶斯（NB）和分类回归树（CART）、网页连接（PageRank）。

1.2 数据集切割 / 数据分区

训练数据集：用于构建模型，进行模型参数的估计和训练。通常抽取数据的中的 80%，可以在训练数据上做任何的分析。
验证数据集：用于对模型的结果进行验证和评估，依此进行模型优化修正和选择，调整过拟合现象和比较预测模型。常用进行交叉验证方法（如10折交叉验证），不做交叉验证时也可不划分验证集，而直接使用测试集来评估模型。
测试数据集：对最终选定的模型进行最终评估，测试模型的推广能力。
**如何划分训练集和测试集？**留出法（Hold-out）（数据集互斥）、交叉验证法（Cross Validation）、自助法（BootStrapping）。

2 监督学习_分类

2.1 k近邻（KNN）

假设给定一个训练数据集的实例类别已定，分类时，将新数据的每个特征与训练样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签，根据其k个最近邻的训练实例的类别，通过多数表决等方式进行预测。

2.2 决策树（DT）

在分类问题中，表示基于特征对实例进行分类的过程，是 if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。（python实现：tree.DecisionTreeClassifier().fit().predict() ）。

2.3 朴素贝叶斯（NB）

贝叶斯概率引入先验知识和逻辑推理来处理不确定命题，选择具有最高概率的决策，分类准则：如果P(c1|x, y) > P(c2|x, y)，那么属于类别c1，反之属于类别c2。重要应用：文档自动分类。

2.4 Logistic回归（LR）

根据现有数据对分类边界线建立回归公式，以此进行分类，其目的是寻找一个非线性函数Sigmoid的最佳拟合参数，求解过程可以由最优化算法（如：梯度上升算法）来完成。

2.5 支持向量机（SVM）

目的是最大化支持向量到分隔面的距离，需要找到此问题的优化求解方法（如：序列最小化SMO、原始估计梯度求解器Pegasos、核函数-径向基函数RBF）。

2.6 集成学习（EL）

bagging是基于数据随机重抽样的分类器构建方法，是一种投票选举方法，每个新分类器都根据已训练出的分类器的性能来进行训练，如随机森林。
boosting通过集中关注被已有分类器错分的那些数据来获得新的分类器，不断地重复训练和调整权重的过程，如AdaBoost。

2.7 概率图模型（PGM）

用图形模式表达基于概率相关关系的模型的总称，大致分为两个类别：贝叶斯网络（有向无环图-因果关系）和马尔可夫随机场（无向图-相互作用），主要区别在于采用不同类型的图来表达变量之间的关系。

2.8 神经网络（ANN）

是由具有适应性的简单单元组成的广泛并行互联的神经网络，有以下集中模型（输入层：神经元输入信号；隐藏层：权重连接传递w-总输入值和阈值o比较，激活函数处理；输出层：神经元输出）：

M-P模型
感知机
前馈神经网络FNN
误差逆传播算法BP：输出层的误差逆向传播至隐层神经元，根据误差来对连接权和阈值进行调整
径向基函数网络RBF：用RBF作为隐单元的“基”构成隐含层空间，隐含层作用是把向量从低维度的p映射到高维度的h使得线性可分
自组织映射网络SOM
玻尔兹曼机Boltzmann
卷积神经网络CNN

3 监督学习_回归

3.1 简单线性回归（LR）

对于给定的数据X，简单线性回归的预测结果将会通过Y=XTw给出，采用平方误差最小化求解w。简单线性回归的有可能出现欠拟合现象，因为它求的是具有最小均方误差的无偏估计。（python实现：LinearRegression().fit().predict()）

3.2 局部加权线性回归（LWLR）

允许在估计中引入偏差，从而降低预测的均方误差，我们给待预测点附近的每个点赋予一定的权重，在这个子集上基于最小均方差来进行普通的回归，与kNN一样。

3.3 缩减回归（shrinkage）

如果特征比样本点还多（n>m），非满秩矩阵在求逆时会出现问题。缩减法通过引入惩罚项参数减少不重要的参数，当应用缩减方法时，模型增加了偏差（bias），却减小了方差。常见方法如岭回归、lasso法和前向逐步回归。

3.4 分类回归树（CART）

数据集中经常包含一些复杂的相互关系，或输入数据和目标变量之间呈现非线性关系，解决方法是将数据集切分再建模，一般采用树结构来对预测值分段建模。若叶节点使用的模型是分段常数则称为回归树，若叶节点使用的模型是线性回归方程则称为模型树。

4 无监督学习_聚类

4.1 原型聚类-K均值（K-means）

聚类试图将相似对象归入同一簇，将不相似对象归到不同簇（相似度度量如：欧式距离、曼哈顿距离和余弦相似性距离）。原型聚类指聚类的结构能通过一组原型刻画，原型是指样本空间中具有代表性的点，通常认为是簇的中心，对于具有连续属性的数据，簇的原型通常是质心，即簇中所有点的平均值。K-均值算法的工作流程（python实现：KMeans(n_clusters=, random_state=).fit().predict()）：