机器学习
文章平均质量分 76
大哇唧
这个作者很懒,什么都没留下…
展开
-
机器学习算法之KNN
1、K 最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是 最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的 k 个最相似(即 特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。2、KNN 方法虽然从原理上也依赖于 极限定理,但在类别决策时,只与极少量的相邻样本有关。由于 KNN 方法主要靠周围有限的 邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多 的待分样本集来说,KNN 方法较原创 2022-05-27 09:51:33 · 857 阅读 · 0 评论 -
聚类算法之密度聚类方法
参考资料:2.3-聚类 - sklearn中文文档密度聚类方法密度聚类方法的核心思想是,只要样本点的密度大 于某阈值,则将该样本添加到最近的簇中。这类算法能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点,可发现任意形状的聚类, 且对噪声数据不敏感。但计算密度单元的计算复杂 度大,需要建立空间索引来降低计算量。DBSCANDBSCAN(Density-Based Spatial Clustering of A原创 2022-05-24 23:25:24 · 3584 阅读 · 0 评论 -
聚类算法之层次聚类方法
目录AGNES算法DIANA算法类间距离的不同定义层次聚类算法的优缺点层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止。具体又可分为:凝聚的层次聚类AGNES算法和分裂的层次聚类DIANA算法。AGNES算法一种自底向上的策略,首先将每个样本各自分到一个类,之后将相距最近的两类合并成一个新的类,重复此操作直到满足停止条件。需要预先确定下面三个要素:1.距离或相似度公式;2.合并规则:类间距离最小,类间距离可以是最短距离、最长距离、中心距离、平均距离等;3.停止条原创 2022-05-22 23:08:58 · 1602 阅读 · 0 评论 -
机器学习之树形算法(一):决策树
熵/基尼系数两种方法可以避免过拟合:剪枝和随机森林。剪枝分为预剪枝和后剪枝。对比预剪枝和后剪枝,能够发现,后剪枝决策树通常比预剪枝决策树保留了更多的分支,一般情形下,后剪枝决策树的欠拟合风险小,泛化性能往往也要优于预剪枝决策树。但后剪枝过程是在构建完全决策树之后进行的,并且要自底向上的对树中的所有非叶结点进行逐一考察,因此其训练时间开销要比未剪枝决策树和预剪枝决策树都大得多。随机森林就是通过集成学习的思想将多棵决策树集成的一种算法,它的基本单元是决策树,本质是一种集成学习(Ensemble .原创 2022-05-26 23:54:13 · 1176 阅读 · 0 评论 -
数据预处理:分类和顺序变量转化为数值型数据
分类数据和顺序数据要参与模型计算,通常都会转化为数值型数据。当然,某些算法是允许这些数据直接参与计算的,例如决策树、关联规则等。真值转换要将非数值型数据转换为数值型数据的最佳方法是:将所有分类或顺序变量的值域从一列多值的形态转换为多列只包含真值的形态,其中的真值可通过True、False或0、1的方式来表示。这种标志转换的方法有时候也称为真值转换。代码如下:import pandas as pd # 导入pandas库from sklearn.preprocessing import原创 2022-05-21 12:17:40 · 3481 阅读 · 0 评论 -
数据预处理:数据降维
目录数据降维的应用场景基于特征选择的降维基于维度转换的降维参考资料:1.《Python数据分析与数据化运营》宋天龙2.主成分分析(PCA)原理详解 - 知乎3.机器学习中SVD总结数据降维的应用场景数据降维可以降低模型的计算量并减少模型运行时间、降低噪音对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。是否进行降维主要考虑以下方面:维度数量。高维的数据大部分情况下是需要降维的原创 2022-05-19 10:23:10 · 4223 阅读 · 0 评论 -
数据预处理:数据离散化
目录数据离散化的应用场景和必要性针对时间数据的离散化针对多值离散数据的离散化针对连续数据的离散化针对连续数据的二值化参考资料:《Python数据分析与数据化运营》宋天龙数据离散化的应用场景和必要性数据离散化大多是针对连续数据进行的,处理之后的数据将从连续属性变为离散属性。离散化处理的必要性:节约计算资源,提高计算效率。 算法模型(尤其是分类模型)的计算需要。虽然很多模型,例如决策树可以支持输入连续型数据,但是决策树本身会先将连续型数据转化为离散型数据,因此离散化转换是一原创 2022-05-19 08:34:06 · 3551 阅读 · 0 评论 -
数据预处理:数据标准化
目录实现中心化和正态分布的Z-Score实现归一化的Max-Min用于稀疏数据的MaxAbs针对离群点的RobustScaler参考资料:《Python数据分析与数据化运营》宋天龙数据标准化是一个常用的数据预处理操作,目的是将不同规模和量纲的数据经过处理,缩放到相同的数据区间,以减少规模、单位、分布差异等对模型的影响。除了应用在模型中,标准化后的数据还具有直接计算并生成复合指标的意义,是加权指标的必要步骤。实现中心化和正态分布的Z-ScoreZ-Score标准化是..原创 2022-05-18 23:48:56 · 2361 阅读 · 0 评论 -
距离函数汇总
2.1 闵科夫斯基距离(Minkowski distance)2.2 曼哈顿距离(Manhattan distance)当时,闵科夫斯基距离即曼哈顿距离(Manhattan distance)2.3 欧式距离(Euclidean distance)时,闵科夫斯基距离即欧式距离(Euclidean distance)2.4 切比雪夫距离(Chebyshev Distance)时,闵科夫斯基距离即切比雪夫距离(Chebyshev Distance)闵可夫斯基距离,曼哈顿距离,欧式...原创 2022-05-14 11:32:22 · 3070 阅读 · 0 评论 -
解决分类中样本分布不平衡问题
3.4 解决样本类别分布不均衡的问题 - 知乎所谓的不平衡指的是不同类别的样本量异非常大。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种。大数据分布不均衡。这种情况下整体数据规模大,只是其中的少样本类的占比较少。但是从每个特征的分布来看,小样本也覆盖了大部分或全部的特征。例如拥有1000万条记录的数据集中,其中占比50万条的少数分类样本便于属于这种情况。 小数据分布不均衡。这种情况下整体数据规模小,并且占据少量样本比例原创 2022-05-10 22:04:11 · 5494 阅读 · 0 评论