目录
机器学习:Machine Learning(简称:ML)
模型分类
一、按照可使用的数据类型:
分为监督学习和无监督学习两大类
监督学习主要包括分类和回归模型:
分类模型:线性分类器(如LR)、支持向量机(SVM)、朴素贝叶斯(NB)、K近邻(KNN)、决策树(DT)、集成模型(RF/GDBT等)
回归模型:线性回归、支持向量机(SVM)、K近邻(KNN)、回归树(DT)、集成模型(ExtraTrees/RF/GDBT)
无监督学习主要包括聚类和降维模型:
聚类模型:
- 划分法:K-Means算法(均值)、K-medoids算法(中心点)、K-modes算法(众数)、k-prototypes算法、CLARANS(基于选择)
- 层次分析:BIRCH算法(平衡迭代规约)、CURE算法(点聚类)、CHAMELEON(动态模型)
- 基于密度:DBSCAN(基于高密度连接区域)、DENCLUE(密度分布函数)、OPTICS(对象排序识别)
- 基于网格:STING(统计信息网络)、CLIOUE(聚类高维空间)、WAVE-CLUSTER(小波变换)
- 基于模型:统计学方法、神经网络
常见聚类算法:
K-Means:K均值算法是一种快速聚类算法,在最小化误差函数的基础上将数据划分为预定的K簇。数据量大的时候也会比较方便和快速。
K-中心点:K均值对孤立点比较敏感,因此这算一个改进算法,不是选择簇中对象的平均值作为簇中心,而是选择簇中离平均值最近的对象作为簇中心。计算量原大于K均值,因此适合小样本数据。
K-众数:顾名思义,不是采用均值作为中心,而是众数。用来处理分类型数据,统计频率即可,弥补K均值只能做数值计算的不足。也是最K均值的改进算法之一。
K-Protype:K均值和K众数的结合,分别用于数值型数据和分类型数据。也是最K均值的改进算法之一。
CLARA:clustering large application,大型应用聚类,基于抽样的方法,采用数据集的多个随机样本,然后使用PAM方法计算各个样本中的最佳中心点。也是最K均值的改进算法之一。
CLARANS:clustering large application basedupon randomized search,基于随机搜索的聚类大型应用。在数据中随机选取K个对象当中心,随机选择一个当前中心点和一个不是当前中心点进行替换,看是否能改善绝对误差,随机搜索L次,组成局部最优解集合。然后重复该过程M次,返回最佳局部最优解。也是最K均值的改进算法之一。
系统聚类:常用的就是那个birch。由高到低成树形结构。适用于小样本数据。
类别间的度量:
连续性变量的距离:
- 欧氏距离
- 曼哈顿距离
- 切比雪夫距离
- 闵可夫斯基距离
- 标准欧式距离
- 马氏距离
离散型变量距离:
- 卡方距离
- Phi距离
- 二值变量距离
- Jaccard系数
基于相似系数的相似性度量:(用相似度表示距离)
- 余弦相似度
- 汉明距离
- Jaccard相似系数
- 皮尔森相关系数
降维模型:
缺失值比率:如果数据集的缺失值太多,我们可以用这种方法减少变量数。
- 低方差滤波:从数据集中识别和删除常量变量,方差小的变量对目标变量影响不大,所以可以放心删去。
- 高相关滤波:具有高相关性的一对变量会增加数据集中的多重共线性,所以用这种方法删去其中一个是有必要的。
- 随机森林:最常用的降维方法之一,并且会明确算出数据集中每个特征的重要性。
- 前向特征选择:耗时较久,计算成本很高,只适用于输入变量较少的数据集。
- 反向特征消除:耗时较久,计算成本很高,只适用于输入变量较少的数据集。
- 因子分析:这种方法适合数据集中存在高度相关的变量集的情况。
- PCA:处理线性数据最广泛使用的技术之一。
- ICA:用ICA将数据转换为独立的分量,使用更少的分量来描述数据。
- ISOMAP:适合非线性数据处理。
- t-SNE:适合非线性数据处理,相较于ISOMAP,t-SNE的可视化更直接。
- UMAP:适用于高维数据,与t-SNE相比,这种方法速度更快。
二、根据模型特性:
各个模型分别基于哪些数学假设、适合处理什么样的数据、优缺点、评测指标及其计算方法
模型名称:LR
数学假设:假设特征与分类结果存在线性关系,使用sigmoid函数映射到0-1
模型优缺点:与随机梯度上升算法相比,预测精度准确,但是耗费时间长
评测指标及其计算方法:准确性(Accuracy)、召回率(Recall)、精确率(Precision)以及F1分数
模型名称:NB
数学假设:各个维度上的特征被分类的条件概率之间是相互独立的、贝叶斯公式
模型优缺点:广泛用于文本分类
优点:速度快,参数估计的个数锐减
缺点:在特征关联性较强的任务性能差
评测指标及其计算方法:准确性(Accuracy)、召回率(Recall)、精确率(Precision)以及F1分数
模型名称:集成模型
数学假设:训练多个模型;RF(bagging);GDBT(boosting);模型融合相关内容
模型优缺点:优点:性能高、稳定性强、广泛应用于工业界
缺点:训练时间长,调参是体力活
xgboost、lightGBM是比较快的
评测指标及其计算方法:准确性(Accuracy)、召回率(Recall)、精确率(Precision)以及F1分数
模型名称:回归相关的模型
数学假设:SVM有三种核函数(linear/poly/rbf)
模型优缺点:
评测指标及其计算方法:R^2/MAE/MSE/RMSE