机器学习
文章平均质量分 83
处女座_三月
增长见识, 去见识更加广阔的世界
展开
-
机器学习异常值处理 逻辑汇总一
【代码】机器学习异常值处理 逻辑汇总一。原创 2024-01-03 15:16:48 · 757 阅读 · 0 评论 -
探秘机器学习核心逻辑:梯度下降的迭代过程 (图文详解)
图文并茂 深度解析梯度下降原理 (机器学习),探秘机器学习:图文详解梯度下降的迭代过程原创 2023-12-09 19:44:24 · 732 阅读 · 0 评论 -
梯度算法推导 (机器学习 必读02)
梯度下降法(Gradient Descent)是一个算法,但不是像多元线性回归那样是一个具体做回归任务的算法,而是一个非常通用的优化算法来帮助一些机器学习算法(都是无约束最优化问题)求解出最优解, 所谓的通用就是很多机器学习算法都是用梯度下降,甚至深度学习也是用它来求解最优解。所有优化算法的目的都是期望以最快的速度把模型参数θ求解出来,梯度下降法就是一种经典常用的优化算法。原创 2023-10-29 20:55:15 · 254 阅读 · 0 评论 -
线性模型的原理解读 (机器学习 必读01)
线性回归是机器学习中有监督机器学习下的一种算法。回归问题主要关注的是因变量(需要预测的值,可以是一个也可以是多个)和一个或多个数值型的自变量(预测变量)之间的关系。连续值预测变量。原创 2023-10-29 10:53:36 · 796 阅读 · 1 评论 -
Prophet 时间序列算法
Prophet模型是Facebook 开源的时间序列算法,可运行于python 和R 平台。该算法可以达到以下基本功能:时间序列预测、序列趋势变点检测,季节性和节假日特征分析,复合周期性分析,计算拟合或预测置信区间、补充缺失值等。算法核心思想为信号处理思想,通过对序列的复合周期性分析,进行解构和重构,以达到拟合和预测的效果。有极强的可解释性和算法拓展性。原创 2023-07-06 18:24:02 · 248 阅读 · 0 评论 -
机器学习项目记录
计算公式为: R2 = 1 - (SSR / SST) 其中,SSR 是回归平方和(Sum of Squares of Residuals),表示回归模型的拟合误差;SST 是总平方和(Total Sum of Squares),表示总体数据的离散程度。,说明模型能够较好地解释观测数据的变化,,并返回一个表示评分结果的浮点数。对象,将其应用于训练数据,并。表示模型的预测结果与真实值之间的。1 在训练阶段,创建并拟合。原创 2023-06-15 14:19:27 · 892 阅读 · 0 评论 -
pandas 数据库使用记录
data=data.dropna(axis=1, how='all') #列。data=data.dropna(axis=1, how='any') #列。读取csv文件 data=pd.read_csv(“”)原创 2023-06-13 09:21:08 · 93 阅读 · 0 评论 -
多项式回归、R2 和 RMSE
R2(决定系数)和RMSE(均方根误差)是常用的回归模型评估指标,用于衡量模型对观测数据的拟合程度和预测精度。R2(决定系数): R2 表示模型对因变量的解释能力,取值范围从 0 到 1,越接近 1 表示模型对数据的拟合程度越好。计算公式为: R2 = 1 - (SSR / SST) 其中,SSR 是回归平方和(Sum of Squares of Residuals),表示回归模型的拟合误差;SST 是总平方和(Total Sum of Squares),表示总体数据的离散程度。原创 2023-06-05 09:10:04 · 18573 阅读 · 2 评论 -
00- 机器学习算法汇总 (算法)
但是与分类算法的区别是,回归算法是一种对数值型连续随机变量进行预测和建模的监督学习算法,产生的结果也一般是数值型的。例如向已经训练好的回归模型中输入一个人的数据,判断此人20年后的经济能力,则模型的回归结果是连续的,往往得到一条回归曲线。、LWLR算法(局部加权)、LRCV算法(交叉验证)、MLP算法(神经网络);算法、k-medoids算法、K-pototypes算法、CLARANS算法。4.基于关联规则的分类:CBA算法、ADT算法、CMAR算法、ARCS算法;例如上学的阶段:小学、中学、大学。原创 2023-02-15 02:12:55 · 3483 阅读 · 1 评论 -
23- 条件随机场CRF (NLP算法) (算法)
将之前所有的观测作为未来预测的依据是不现实的,因为其复杂度会随着观测数量的增加而无限制地增长。因此,就有了马尔科夫模型,即假定未来的预测仅与最近的观测有关,而独立于其他所有的观测。通过引入隐变量,解决Markov Model需要强独立性的问题,即隐马尔可夫模型 HMM。隐马尔可夫模型HMM为生成式模型,计算联合概率分布;条件随机场CRF则是判别式模型,计算条件概率。原创 2023-02-17 18:28:54 · 1028 阅读 · 0 评论 -
22- 隐马尔科夫HMM (NLP自然语言算法) (算法)
隐马尔科夫模型(Hidden Markov Model,以下简称HMM)是比较经典的机器学习模型了,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用。当然,随着目前深度学习的崛起,尤其是RNN,LSTM等神经网络序列模型的火热,HMM的地位有所下降。但是作为一个经典的模型,学习HMM的模型和对应算法,对我们解决问题建模的能力提高以及算法思路的拓展还是很好的。原创 2023-02-17 19:14:54 · 1096 阅读 · 0 评论 -
21- 朴素贝叶斯 (NLP自然语言算法) (算法)
概率图模型算法往往应用于NLP自然语言处理领域。当然很多传统机器学习的算法也常用于 NLP 的任务。例如,用朴素贝叶斯进行文本分类、用 SVM 进行语义角色标注,虽然它们在某些 NLP 任务中都实现了很好的效果,但它们都相互独立, 没有形成体系。随着近些年对智能推理和认知神经学的深入研究,人们对大脑和语言的内在机制了解得越来越多,也越来越能从更高层次上观察和认识自然语言,由此形成一套完整的算法体系。目前最流行的算法思想包含如下两大流派:基于概率论和图论的概率图模型基于。原创 2023-02-17 17:24:29 · 1692 阅读 · 0 评论 -
20- Xgboost 算法参数最优化 (集成算法) (算法)
XGBoost 是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。先来举个例子,我们要预测一家人对电子游戏的喜好程度,考虑到年轻和年老相比,年轻更可能喜欢电子游戏,以及男性和女性相比,男性更喜欢电子游戏,故先根据年龄大小区分小孩和大人,然后再通过性别区分开是男是女,逐一给各人在电子游戏喜好程度上打分,如下图所示。我们重新定义一颗树,包括两个部分:叶子结点的权重向量 ;原创 2023-02-15 16:36:34 · 1329 阅读 · 0 评论 -
19- Adaboost多分类与回归 (集成算法) (算法)
Adaboost多分类和回归算例原创 2023-02-15 03:43:57 · 1553 阅读 · 1 评论 -
18- Adaboost梯度提升树 (集成算法) (算法)
Adaboost算法实例演示原创 2023-02-15 03:27:48 · 430 阅读 · 0 评论 -
17- 梯度提升回归树GBRT (集成算法) (算法)
gradient Boosting DecisionTree 一一> GBDTBoosting :提升的,一点点靠近最优答案残差残差的意思就是:A的预测值 + A的残差 = A的实际值残差 = 实际值 - 预测值预测值 = 实际值 - 残差。原创 2023-02-14 20:32:19 · 4602 阅读 · 2 评论 -
16- 梯度提升分类树GBDT (梯度下降优化) (算法)
GBDT分类树sigmoid + 决策回归树一一> 概率问题!损失函数是交叉熵概率计算使用sigmoid使用mse作为分裂标准(同梯度提升回归树)Step - 1:a. b. 根据残差 ,寻找最小 mse 裂分条件c.d. 。原创 2023-02-14 19:25:44 · 905 阅读 · 0 评论 -
15- 决策回归树, 随机森林, 极限森林 (决策树优化) (算法)
与分类树一样裂分指标,使用的是MSEMAE决策回归树,认为它是分类问题,只是,分的类别多一些!!!只要树,分类回归,其实就是分类多和少的问题少数服从多数,人多力量大,三个臭皮匠顶个诸葛亮。聚合模型所有朋友的意见投票, 少数服从多数(随机森林对应原理公式)牛一点的朋友多给几票,弱鸡一点的少给几票(Adaboost对应原理公式)Bagging 思想 + 决策树就诞生了随机森林。随机森林,都有哪些随机?bagging生成一颗决策树时,随机抽样。原创 2023-02-14 18:05:36 · 1723 阅读 · 0 评论 -
14- 决策树算法 (有监督学习) (算法)
决策树是属于有监督机器学习的一种,起源非常早,符合直觉并且非常直观,模仿人类做决策的过程,早期人工智能模型中有很多应用,现在更多的是使用基于决策树的一些集成学习的算法。这一章我们把决策树算法理解透彻了,非常有利于后面去学习集成学习。账号是否真实跟属性:日志密度、好友密度、是否使用真实头像有关系~原创 2023-02-14 15:27:56 · 964 阅读 · 0 评论 -
13- EM算法与GMM高斯混合 (聚类算法) (算法)
EM算法最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),曾入选“数据挖掘十大算法”中,可见EM算法在机器学习、数据挖掘中的影响力。EM算法是最常见的隐变量估计方法,在机器学习中有极为广泛的用途,例如常被用来学习高斯混合模型(Gaussian mixture model,简称GMM)的参数。EM算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。1.2、EM算法流程。原创 2023-02-14 14:05:26 · 1155 阅读 · 0 评论 -
12- 降维算法 (PCA降维/LDA分类/NMF) (数据处理)
高维度特征数据预处理方法留下最重要的一些特征,去除噪声和不重要的特征数据降维简介: 降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。降维算法优点减少所需的存储空间加快计算速度去除冗余特征太复杂的模型可以导致过拟合较简单的模型更强的鲁棒性。原创 2023-02-14 02:22:33 · 2828 阅读 · 0 评论 -
11- 聚类算法 (KMeans/DBSCAN/agg) (算法)
知识发现发现事物之间的潜在关系异常值检测特征提取 数据压缩的例子1.2、有监督与无监督学习有监督给定训练集 X 和 标签Y选择模型学习(目标函数的最优化), 训练fit生成模型(本质上是一组参数、方程)根据生成的一组参数进行预测分类等任务无监督拿到的数据只有X ,没有标签,只能根据X的相似程度做一些事情。Clustering 聚类类别内相似度大,类别间相似小。也可以用来改变数据的维度,可以将聚类结果作为一个维度添加到训练数据中。降维算法,数据特征变少DBSCAN。原创 2023-02-13 20:08:25 · 1862 阅读 · 0 评论 -
10- SVM支持向量机 (SVC) (算法)
支持向量机是一种二分类算法,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,如果对应的样本特征少,一个普通的 SVM 就是一条线将样本分隔开,但是要求线到两个类别最近样本点的距离要最大。就是在寻找一个最优的决策边界(上图中的两条虚线)来确定分类线b,所说的支持向量就是距离决策边界最近的点(上图中p1、p2、p3点,只不过边界穿过了这些点)。如果没有这些支持向量点,b线的位置就要改变,所以SVM就是根据这些支持向量点来最大化margin,来找到了最优的分类线。原创 2023-02-13 06:49:23 · 3491 阅读 · 0 评论 -
09- 逻辑回归算法 (LogisticRegression) (算法)
逻辑回归就是在多元线性回归基础上把结果(result)缩放到 0 ~ 1 之间。hx越接近 1 越是正例,hx越接近 0 越是负例,根据中间 0.5 将数据分为二类。其中hx 就是概率函数~逻辑回归中对应一条非常重要的曲线S型曲线,对应的函数是Sigmoid函数:它有一个非常棒的特性,其导数可以用其自身表示:我们知道分类器的本质就是要找到分界,所以当我们把 0.5 作为分类边界时,我们要找的就是即 时, 的解~我们知道二分类有个特点就是正例的概率 + 负例的概率 = 1。原创 2023-02-13 03:57:24 · 515 阅读 · 0 评论 -
08- 数据升维 (PolynomialFeatures) (数据处理)
已知维度进行相乘自乘使用()进行简单的,幂次合并,注意数据合并的方向axis = 1数据可视化时,注意切片,因为数据升维后,多了平方这一维特征升维1.1、多项式回归基本概念对于多项式回归来说主要是为了扩展线性回归算法来适应更广泛的数据集,比如我们数据集有两个维度,那么用多元线性回归公式就是:,当我们使用二阶多项式升维的时候,数据集就从原来的扩展成了。因此多元线性回归就得去多计算三个维度所对应的w值:。1.2 使用PolynomialFeatures进行特征升维。原创 2023-02-11 16:44:00 · 1711 阅读 · 0 评论 -
07- 梯度下降优化(Lasso/Ridge/ElasticNet) (数据处理+算法)
归一化不同属性的数据都降到一个数量级最大值最小值归一化:优点是可以把所有数值归一到 0~1 之间,缺点受离群值影响较大0-均值标准化: 经过处理的数据符合标准正态分布有正有负防止数据过拟合L1或L2干扰项Lasso 回归:L1 正则Ridge 岭回归:多元线性回归损失函数L2 正则Elastic-Net算法很多特征互相联系的情况数据不够时防止欠拟合, 通常是使用现有参数相乘, 或者自身平方达到增加数据量的目的。原创 2023-02-11 05:23:27 · 1805 阅读 · 0 评论 -
06- 梯度下降(SGDRegressor) (算法)
梯度下降算法求误差值函数的最小值随机取值该点的导数误差达到一个可以接受的范围# stochastic(随机)梯度下降法是一点点去逼近最优解。原创 2023-02-11 03:17:00 · 1407 阅读 · 0 评论 -
05- 线性回归算法 (LinearRegression) (算法)
线性回归算法(LinearRegression)存在一定的误差符合正太分布求这个正太分布的最小均值和方差求误差的极小值。原创 2023-02-10 21:38:12 · 6553 阅读 · 1 评论 -
04- Matplotlib数据可视化详解 (数据库)
Matplotlib的亮点:# 导包plt.figure图片大小plt. plot绘制网格线: 线型, 颜色, 透明度plt.grid# linestyle: 样式, color: 颜色, alpha: 透明度plt.axis坐标轴范围plt.xlimX轴范围plt.ylimY轴范围plt.xticks# 设置X轴刻度plt.yticks# 设置Y轴刻度plt.title('正弦波')plt.legend设置图例保存图片。原创 2023-02-10 19:08:49 · 1071 阅读 · 0 评论 -
03- pandas 数据库可视化 (数据库) (需要sns部分内容????)
pandas库的亮点快速、高效的DataFrame对象读写数据CSV和文本文件、Microsoft Excel、SQL数据库和快速HDF 5格式;智能数据对齐和丢失数据的综合处理数据集的灵活调整和旋转智能标签的切片、花式索引和大型数据集的子集插入和删除列允许对数据集进行拆分应用组合操作数据集的高性能合并和连接层次轴索引时间序列金融,神经科学,经济学,统计学,广告,网络分析,等等.原创 2023-02-09 21:49:02 · 1931 阅读 · 0 评论 -
02- pandas 数据库 (数据库)
数据库重点:pandas 的主要数据结构:(一维数据)与(二维数据)。data生成pandas数据index行索引columns列索引data.shape查看形状查看前10列数据存储数据常用格式:选取指定行标签数据判断Python分数是否大于100,返回值是boolean类型的Seriespd.concat# df1和df2行串联,df2的行追加df2行后面df.insert插入列空数据筛选df.rename。原创 2023-02-09 21:44:48 · 2164 阅读 · 0 评论 -
01- NumPy 数据库 (数据库)
numpy数据库重点:numpy的主要数据格式: ndarray列表转化为ndarray格式:np.array()arr.shape# 输出(3, 4, 5)# 使用save可以存一个ndarraynp.savetxt# 存储为 txt 文件np.array# 转换为ndarray格式完全不拷贝浅拷贝深拷贝# 形状改变,返回新数组# transpose改变数组维度 shape(4,3,6), 原shape: (3, 6, 4)np.hstack。原创 2023-02-09 16:54:50 · 769 阅读 · 0 评论