机器学习算法
文章平均质量分 93
机器学习算法原理及应用
小森( ﹡ˆoˆ﹡ )
(ง •̀_•́)ง加油
展开
-
【机器学习】连续字段的特征变换
除了离散变量的重编码外,有的时候我们也需要对连续变量进行转化,以提升模型表现或模型训练效率。在之前的内容中我们曾介绍了关于连续变量标准化和归一化的相关内容,对连续变量而言,标准化可以消除量纲影响并且加快梯度下降的迭代效率,而归一化则能够对每条数据进行进行范数单位化处理,我们可以通过下面的内容进行标准化和归一化相关内容回顾。原创 2024-07-05 09:57:46 · 1276 阅读 · 31 评论 -
【Kaggle】Telco Customer Churn 数据编码与模型训练
本节开始,我们将围绕此前已经处理好的数据来进一步来进行用户流失预测。当然,要进行尽可能精准的用户流失预测,就离不开特征工程、模型选择与训练、参数调优和模型融合这些环节。考虑到该数据集的建模目标有两个,其一是希望能够进行尽可能精准的预测,同时由于该案例也包含数据分析背景,要求模型结果也能够为业务人员在业务开展过程中提供具体指导意见,因此无论是在模型选型过程还是特征工程环节,我们都将同时纳入这两个因素进行综合考虑。本节我们将优先考虑具备模型可解释性的逻辑回归和决策树,这两个算法也是大多数在要求对结果进行解释的场原创 2024-07-02 09:26:27 · 1293 阅读 · 18 评论 -
【Kaggle】Telco Customer Churn 电信用户流失预测案例
我们将围绕Kaggle中的电信用户流失数据集(Telco Customer Churn)进行用户流失预测。在此过程中,我们将综合应用此前所介绍的各种方法与技巧,并在实践中提炼总结更多实用技巧。Stage 1.业务背景解读与数据探索在拿到数据(接受任务)的第一时间,需要对数据(也就是对应业务)的基本背景进行解读。原创 2024-07-01 19:35:08 · 2394 阅读 · 25 评论 -
Sklearn中逻辑回归建模
精确度,衡量对1类样本的识别,能否成功(准确识别出1)的概率,也正是由于这种力求每次出手都尽可能成功的策略,使得当我们在以精确度作为模型判别指标时,模型整体对1的判别会趋于保守,只对那些大概率确定为1的样本进行1类的判别,从而会一定程度牺牲1类样本的准确率,在每次判别成本较高、而识别1样本获益有限的情况可以考虑使用精确度。💢可是,这样的模型有意义吗?则该模型的准确率为98%,因为它正确地识别出来了测试集中的98个狗狗,只是错误的把2个猫咪也当做狗狗,所以按照准确率的计算公式,该模型有高达98%的准确率。原创 2024-06-13 10:32:35 · 1443 阅读 · 6 评论 -
梯度提升树GBDT系列算法
在Boosting集成算法当中,我们逐一建立多个弱评估器(基本是决策树),并且下一个弱评估器的建立方式依赖于上一个弱评估器的评估结果,最终综合多个弱评估器的结果进行输出。这个过程相当于有意地加重“难以被分类正确的样本”的权重,同时降低“容易被分类正确的样本”的权重,而将后续要建立的弱评估器的注意力引导到难以被分类正确的样本上。💥由此,我们可以确立任意boosting算法的三大基本元素以及boosting算法自适应建模的基本流程:几乎所有boosting算法的原理都围绕这三大元素构建。在此三大要素基础上,所原创 2024-06-11 14:17:34 · 1255 阅读 · 5 评论 -
机器学习中的集成学习
众人拾柴火焰高”、“三个臭皮匠顶个诸葛亮”等词语都在表明着群体智慧的力量,所谓的“群体智慧”指的就是一群对某个主题具有平均知识的人集中在一起可以对某一些问题提供出更加可靠的答案。原因在于,汇总结果能够抵消噪音,得出的结论通常可以优于知识渊博的专家。同样的规则也适用于机器学习领域。在机器学习中,群体智慧是通过集成学习实现的,所谓集成学习(ensemble learning),是指通过构建多个弱学习器,然后结合为一个强学习器来完成分类任务并获得比单个弱分类器更好的效果。原创 2024-06-04 08:55:24 · 1069 阅读 · 3 评论 -
梯度下降算法
在线性回归中,我们使用最小二乘法,能够直接计算损失函数最小值时的参数值,但是,最小二乘法有使用的限制条件,在大多数机器学习的使用场景之下,我们会选择梯度下降的方法来计算损失函数的极小值,首先梯度下降算法的目标仍然是求最小值,但和最小二乘法这种一步到位、通过解方程组直接求得最小值的方式不同,梯度下降是通过一种“迭代求解”的方式来进行最小值的求解,其整体求解过程可以粗略描述为,先随机选取一组参数初始值,然后沿着某个方向,一步一步移动到极小值点 一个人被困在山上,需要从山上下来。原创 2024-05-18 20:02:41 · 1411 阅读 · 5 评论 -
Logistic回归
本章节讲解逻辑回归的基本原理、逻辑回归模型构建过程。课程环境使用Jupyter notebook环境。原创 2024-05-17 09:43:00 · 1218 阅读 · 5 评论 -
机器学习中的聚类
它将一组数据分成若干个不同的群组,使得每个群组内部的数据点相似度高,而不同群组之间的数据点相似度低。质心的选择会影响图的松散程度:SSE = (−0.2) 2 + (0.4) 2 + (−0.8) 2 + (1.3) 2+ (−0.7) 2 = 3.02。对于n个点的数据集,迭代计算 k from 1 to n,每次聚类完成后计算 SSE,SSE 是会逐渐变小的,因为每个点都是它所在的簇中心本身。对计算每一个样本 i 到同簇内其他样本的平均距离 ai,该值越小,说明簇内的相似程度越大。原创 2024-05-13 23:28:16 · 1566 阅读 · 3 评论 -
机器学习特征降维
相关系数的值介于–1与+1之间,当 r>0 时,表示两变量正相关,r<0 时,两变量为负相关,当 |r|=1 时,表示两变量为完全相关,当r=0时,表示两变量间无相关关系。斯皮尔曼相关系数与之前的皮尔逊相关系数大小性质一样,取值 [-1, 1]之间,斯皮尔曼相关系数比皮尔逊相关系数应用更加广泛。PCA 通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度)损失少量信息,在此过程中可能会舍弃原有数据、创造新的变量。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变。原创 2024-05-12 22:56:06 · 1027 阅读 · 4 评论 -
AI - 机器学习GBDT算法
GBDT属于Boosting方法的一种,这种方法会顺序构建一系列弱学习器(通常是决策树),每个后续模型都侧重于纠正前一个模型的错误。首先定义了一个参数网格(param_grid),包含了三个超参数:max_depth(树的最大深度)、n_estimators(弱学习器的数量)和eta(学习率)。负梯度是GBDT中用来指导模型优化的方向,它根据当前模型的损失函数来计算,并通过拟合这些负梯度来训练新的决策树,从而逐步提升模型的性能。是一个用于数据分割的参数,它指定了交叉验证的策略。原创 2024-03-20 09:16:57 · 1753 阅读 · 25 评论 -
AI - 支持向量机算法
相反,如果C设置得过小,模型可能会欠拟合,即对训练数据的分类错误过多,这也会影响模型在新数据上的性能。yi 是样本的标签,omega 和 b 分别是模型的权重和偏置项,xi 是第 i 个样本的特征向量。SVM的核心思想是找到一个超平面,这个超平面能够最好地将数据分为两类,即在保证分类准确的情况下,使得两个类别的数据到超平面的最小距离(即间隔)最大。SVM的损失函数通常指的是合页损失函数(Hinge Loss),它是一种变种损失函数,用于最大间隔分类。在实际的应用中,选择合适的C值是非常重要的。原创 2024-03-17 09:11:21 · 1963 阅读 · 21 评论 -
AI-逻辑回归模型
AUC的取值范围在0.5到1之间,其中0.5表示模型没有区分能力,而1表示模型具有完美的分类能力。其中,( y_i ) 是样本的真实标签(0或1),( p_i ) 是模型预测该样本为正例的概率,N是样本数量。当模型预测的概率与真实标签一致时,损失函数的值会很小;会在计算损失函数时自动为每个类分配权重,使得较少出现的类别(少数类)获得更高的权重,以此来平衡各类别之间的样本数量差异。这样做有助于改善模型对少数类的识别能力,特别是在数据集中某些类的样本数量远少于其他类时,这种权重调整可以防止模型偏向于多数类。原创 2024-03-15 09:21:43 · 1945 阅读 · 15 评论 -
AI-线性回归模型
线性回归模型的预测公式可以表示为 y = θ0 + θ1x1 + θ2x2 +... + θnxn,其中 θj 是模型参数,包括偏置项 θ0 和特征权重 θ1, θ2,..., θn。在每一步迭代中,都沿着当前点的梯度(即损失函数在该点的导数)方向移动一定的步长,以此来减小损失函数的值。用来衡量机器学习模型性能的函数,损失函数可以计算预测值与真实值之间的误差(用一个实数来表示),误差越小说明模型性能越好。但是用来衡量回归损失的时候, 不能简单的将每个点的预测误差相加。SGDRegressor学习率。原创 2024-03-14 13:21:30 · 1852 阅读 · 15 评论 -
K 近邻算法
其基本思想是:给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类别,则该输入实例也属于这个类别。分层类别分割: Counter({2: 40, 0: 40, 1: 40}) Counter({2: 10, 1: 10, 0: 10})随机类别分割: Counter({1: 41, 0: 40, 2: 39}) Counter({2: 11, 0: 10, 1: 9})K近邻是机器学习算法中理论最简单,最好理解的算法,虽然算法简单,但效果也不错。原创 2024-03-13 13:50:41 · 1098 阅读 · 20 评论 -
XGBoost算法
XGBoost在机器学习中被广泛应用于多种场景,特别是在结构化数据的处理上表现出色,XGBoost适用于多种监督学习任务,包括分类、回归和排名问题。:XGBoost的基本思想是通过添加一系列弱学习器(通常是CART回归树)来逐步减少目标函数的残差(模型预测值与实际值之间的差异),从而提升模型的性能。:XGBoost提供了多种编程语言的接口,包括Python、R、Java等,方便用户在不同的环境中使用。:XGBoost在许多机器学习竞赛和实际应用中表现出卓越的性能,尤其在结构化数据上的表现尤为突出。原创 2024-02-08 13:31:03 · 1636 阅读 · 1 评论 -
AdaBoost算法
AdaBoost的核心思想是通过对错误分类的样本增加权重,使得后续的弱分类器更加关注这些难以分类的样本。通过加权投票的方式,将多个弱分类器的预测结果组合起来,形成一个强分类器。原创 2024-02-07 13:11:01 · 1204 阅读 · 0 评论 -
支持向量机
支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中。通过对文本数据进行预处理,提取特征,然后使用支持向量机进行训练和预测,可以实现对文本数据的自动分类。通过对图像数据进行预处理,提取特征,然后使用支持向量机进行训练和预测,可以实现对图像数据的自动识别。硬间隔指的是让所有的样本都不在最大间隔之间,并位于正确的一边,如果出现异常值、或者样本不能线性可分,硬间隔无法实现。软间隔可以应用在一些线性不可分的场景。原创 2024-02-04 11:43:44 · 2851 阅读 · 3 评论 -
机器学习算法决策树
决策树是一种常见的分类模型,在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先询问男方是否有房产,如果有房产再了解是否有车产,如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。由于决策树模型中自变量与因变量的非线性关系以及决策树简单的计算方法,使得它成为集成学习中最为广泛使用的基模型。原创 2024-02-01 21:11:40 · 2722 阅读 · 1 评论 -
KNN算法原理及应用
KNN是监督学习分类算法,主要解决现实生活中分类问题。根据目标的不同将监督学习任务分为了分类学习及回归预测问题。监督学习任务的基本流程和架构:(1)首先准备数据,可以是视频、音频、文本、图片等等(2)抽取所需要的一些列特征,形成特征向量(Feature Vectors)。(3)将这些特征向量连同标记一并送入机器学习算法中,训练出一个预测模型。(4)然后,采用同样的特征提取方法作用于新数据,得到用于测试的特征向量。原创 2024-01-17 23:17:20 · 2321 阅读 · 2 评论 -
线性回归原理
数据中有少数异常点偏差很大,如果此时根据 RMSE 选择线性回归模型,可能会选出过拟合的模型来,数据中的异常点极少,选择具有最低 MAE 的回归模型可能更合适。将上面所有点的预测误差相加得到18,误差有些大,模型还有调整的空间,令W=2时计算出误差为0,但实际情况除了d0之外其余点均存在预测误差。我们设想自己站在一座山(目标函数的等高线图)上,我们的目标是最小化这个函数值,也就是说,我们要找到这座山的最低点或山谷。在多变量函数中,梯度是一个向量,有方向,梯度的方向就指出了函数在给定点的上升最快的方向。原创 2024-01-22 13:11:43 · 1176 阅读 · 1 评论 -
AI ppt生成器 Tome
例如,你可以输入“一个骑着独角兽的男人”,然后AI就会为你生成一张符合这个描述的图片,并且可以让你改变男人或独角兽的颜色、大小、位置等。> 提示栏(Prompt Bar):**可以让你输入任何想法或问题,然后由AI来为你生成完整的故事或者特定的页面。Tome平台还提供了丰富的模板库、自定义设计、大量的素材库和多语言支持等功能,使得用户可以根据自己的需求和风格制作出高质量的PPT。点击右侧的工具栏按钮,输入或者修改与TomeAi的对话,TomeAi可以根据你的对话生成对应的图片。点击图片可以进行更换。原创 2024-01-08 10:19:35 · 1617 阅读 · 4 评论