机 器 学 习

本文详细介绍了机器学习模型的分类,包括监督学习的分类模型(如LR、SVM、KNN等)和回归模型,以及无监督学习的聚类(K-Means、K-中心点等)和降维方法(PCA、t-SNE等)。同时,讨论了模型的数学假设、适用数据类型、优缺点和评估指标。
摘要由CSDN通过智能技术生成

目录

模型分类

一、按照可使用的数据类型:

监督学习主要包括分类和回归模型:

无监督学习主要包括聚类和降维模型:

二、根据模型特性:


机器学习:Machine Learning(简称:ML)

模型分类

一、按照可使用的数据类型:

分为监督学习和无监督学习两大类

监督学习主要包括分类和回归模型:

分类模型:线性分类器(如LR)、支持向量机(SVM)、朴素贝叶斯(NB)、K近邻(KNN)、决策树(DT)、集成模型(RF/GDBT等)

回归模型:线性回归、支持向量机(SVM)、K近邻(KNN)、回归树(DT)、集成模型(ExtraTrees/RF/GDBT)

无监督学习主要包括聚类和降维模型:

聚类模型:

  • 划分法:K-Means算法(均值)、K-medoids算法(中心点)、K-modes算法(众数)、k-prototypes算法、CLARANS(基于选择)
  • 层次分析:BIRCH算法(平衡迭代规约)、CURE算法(点聚类)、CHAMELEON(动态模型)
  • 基于密度:DBSCAN(基于高密度连接区域)、DENCLUE(密度分布函数)、OPTICS(对象排序识别)
  • 基于网格:STING(统计信息网络)、CLIOUE(聚类高维空间)、WAVE-CLUSTER(小波变换)
  • 基于模型:统计学方法、神经网络

        常见聚类算法:

K-Means:K均值算法是一种快速聚类算法,在最小化误差函数的基础上将数据划分为预定的K簇。数据量大的时候也会比较方便和快速。

K-中心点:K均值对孤立点比较敏感,因此这算一个改进算法,不是选择簇中对象的平均值作为簇中心,而是选择簇中离平均值最近的对象作为簇中心。计算量原大于K均值,因此适合小样本数据。

K-众数:顾名思义,不是采用均值作为中心,而是众数。用来处理分类型数据,统计频率即可,弥补K均值只能做数值计算的不足。也是最K均值的改进算法之一。

K-Protype:K均值和K众数的结合,分别用于数值型数据和分类型数据。也是最K均值的改进算法之一。

CLARA:clustering large application,大型应用聚类,基于抽样的方法,采用数据集的多个随机样本,然后使用PAM方法计算各个样本中的最佳中心点。也是最K均值的改进算法之一。

CLARANS:clustering large application basedupon randomized search,基于随机搜索的聚类大型应用。在数据中随机选取K个对象当中心,随机选择一个当前中心点和一个不是当前中心点进行替换,看是否能改善绝对误差,随机搜索L次,组成局部最优解集合。然后重复该过程M次,返回最佳局部最优解。也是最K均值的改进算法之一。

系统聚类:常用的就是那个birch。由高到低成树形结构。适用于小样本数据。

        类别间的度量:

连续性变量的距离:

  1. 欧氏距离
  2. 曼哈顿距离
  3. 切比雪夫距离
  4. 闵可夫斯基距离
  5. 标准欧式距离
  6. 马氏距离

离散型变量距离:

  1. 卡方距离
  2. Phi距离
  3. 二值变量距离
  4. Jaccard系数

基于相似系数的相似性度量:(用相似度表示距离)

  1. 余弦相似度
  2. 汉明距离
  3. Jaccard相似系数
  4. 皮尔森相关系数

降维模型:

  1. 缺失值比率:如果数据集的缺失值太多,我们可以用这种方法减少变量数。

  2. 低方差滤波:从数据集中识别和删除常量变量,方差小的变量对目标变量影响不大,所以可以放心删去。
  3. 高相关滤波:具有高相关性的一对变量会增加数据集中的多重共线性,所以用这种方法删去其中一个是有必要的。
  4. 随机森林:最常用的降维方法之一,并且会明确算出数据集中每个特征的重要性。
  5. 前向特征选择:耗时较久,计算成本很高,只适用于输入变量较少的数据集。
  6. 反向特征消除:耗时较久,计算成本很高,只适用于输入变量较少的数据集。
  7. 因子分析:这种方法适合数据集中存在高度相关的变量集的情况。
  8. PCA:处理线性数据最广泛使用的技术之一。
  9. ICA:用ICA将数据转换为独立的分量,使用更少的分量来描述数据。
  10. ISOMAP:适合非线性数据处理。
  11. t-SNE:适合非线性数据处理,相较于ISOMAP,t-SNE的可视化更直接。
  12. UMAP:适用于高维数据,与t-SNE相比,这种方法速度更快。

二、根据模型特性:

各个模型分别基于哪些数学假设、适合处理什么样的数据、优缺点、评测指标及其计算方法

模型名称:LR

数学假设:假设特征与分类结果存在线性关系,使用sigmoid函数映射到0-1

模型优缺点:与随机梯度上升算法相比,预测精度准确,但是耗费时间长

评测指标及其计算方法:准确性(Accuracy)、召回率(Recall)、精确率(Precision)以及F1分数

模型名称:NB

数学假设:各个维度上的特征被分类的条件概率之间是相互独立的、贝叶斯公式

模型优缺点:广泛用于文本分类

优点:速度快,参数估计的个数锐减

缺点:在特征关联性较强的任务性能差

评测指标及其计算方法:准确性(Accuracy)、召回率(Recall)、精确率(Precision)以及F1分数

模型名称:集成模型

数学假设:训练多个模型;RF(bagging);GDBT(boosting);模型融合相关内容

模型优缺点:优点:性能高、稳定性强、广泛应用于工业界

缺点:训练时间长,调参是体力活

xgboost、lightGBM是比较快的

评测指标及其计算方法:准确性(Accuracy)、召回率(Recall)、精确率(Precision)以及F1分数

模型名称:回归相关的模型

数学假设:SVM有三种核函数(linear/poly/rbf)

模型优缺点:

评测指标及其计算方法:R^2/MAE/MSE/RMSE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值