![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 95
T1.Faker
此人很懒,什么都没有写
展开
-
python数据分析 - 数据降维PCA
python数据分析 - 数据降维1.PCA最大可分性的思想2.基变换3.方差4.协方差5.协方差矩阵6.协方差矩阵对角化7.PCA算法流程8.PCA实例大概主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。首先考虑一个问题:对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达原创 2022-04-08 15:53:33 · 1777 阅读 · 0 评论 -
集成学习:算法理论 (超详细)(二)
集成学习:算法理论 2 集成学习2.1 bagging2.1.1 Bootstrap2.1.2 预测(投票/平均)2.2 boosting2.3 随机森林2.4 AdaBoost2.4.1 概述2.4.2 AdaBoost算法流程2.5 GBDT2.5.1 BDT2.5.2 BDT算法流程2.5.3 GBDT2.5.4 GBDT梯度提升流程2.5.5 GBDT回归流程2.5.6 GBDT分类流程2.6 XGBoost2.6.1 XGBoost初步探索2.6.2 XGBoost流程2.7 LightGBM2原创 2022-03-30 13:37:25 · 1163 阅读 · 2 评论 -
集成学习:算法理论 (超详细)
集成学习:算法理论 (三)1 决策树1.1 分类树1.1.1 信息熵1.1.2 案例1.1.3 基尼Gini指数1.1.4 案例1.2 回归树1.2.1 回归树分支标准1.2.2 案例1 决策树1.1 分类树1.1.1 信息熵信息熵是用来衡量信息不确定性的指标,不确定性是一个事件出现不同结果的可能性,计算方法如下所示:H(X)=−∑i=1nP(X=i)log2P(X=i)H(X)=-\sum_{i=1}^{n}P(X=i)log_2P(X=i)H(X)=−i=1∑nP(X=i)log2P(X原创 2022-03-28 15:14:48 · 2512 阅读 · 0 评论 -
概率模型评价指标
概率模型评价指标1.布里尔分数Brier Score2.对数似然函数Log Loss3.可靠性曲线Reliability Curve4.预测概率的直方图5.校准可靠性曲线来源:数据STUDIO作者:云朵君1.布里尔分数Brier Score概率预测的准确程度被称为"校准程度",是衡量算法预测出的概率和真实结果的差异的一种方式。一种比较常用的指标叫做布里尔分数,它被计算为是概率预测相对于测试样本的均方误差,表示为:其中是样本数量, 为概率类模型预测出的概率, 是样本所对应的真实结果,只能取到0或者1原创 2021-10-28 16:49:04 · 1654 阅读 · 0 评论 -
线性回归模型异方差解决方法
线性回归模型异方差解决方法1.异方差定义2.异方差检验2.1 残差图2.2 white检验2.3 BP检验3.异方差修正3.1 对原数据做对数处理3.2 使用OLS稳健标准误回归3.3 FWLS回归1.异方差定义传说在多元线性回归有这一基本假设:模型符合线性模式X满秩(无多重共线)零均值价值:E(ξi∣Xi)=0E(\xi_i|X_i)=0E(ξi∣Xi)=0(自变量外生)同方差:Var(ξi∣Xi)=σVar(\xi_i|X_i)=\sigmaVar(ξi∣Xi)=σ无自相关:co原创 2021-10-27 14:23:39 · 12696 阅读 · 0 评论 -
时间序列模型算法 - ARIMA (一)
时间序列模型1.时间序列模型概述1.1 时间序列的不同分类1.2 确定性时间序列分析方法概述1.3 三种时间序列模型2.指标平滑ES3.移动平均法4.ACF与PACF5.AR6.MA7.ARMA8.ARIMA8.1 差分1.时间序列模型概述时间序列是研究数据随时间变化而变化的一种算法。是一种预测性分析算法。它的基本出发点就是事物发展都有连续性,按照它本身固有的规律进行。时间序列的常用算法包括:时间序列可以解决在只有时间(序列项)而没有其他可控变量下对未来数据的预测问题,常用于经济预测、股市预测、天原创 2021-10-11 13:31:22 · 15850 阅读 · 5 评论 -
机器学习面试题 (一)
机器学习面试题1.机器学习项目流程详细1.1定位数学问题1.2获取数据1.3特征预处理与特征选择1.4训练模型与调优1.5模型判定1.6模型集成1.7上线测试2.有监督学习和无监督学习的区别2.1监督学习2.2无监督学习2.3常用算法3.数据归一化处理的作用4.不需要做归一化处理的算法有哪些5.介绍一下逻辑回归LR6.逻辑回归与线性回归的区别与联系7.正则化的含义7.1线性回归拟合问题7.2逻辑回归拟合问题1.机器学习项目流程详细1.1定位数学问题首先进行机器学习项目时,需要对自己的训练目标进行明确定原创 2021-08-08 16:24:37 · 1395 阅读 · 1 评论 -
python数据分析与挖掘笔记
参考书小飞蓬对本书选取重要知识点进行归总,并手动编写其中的代码1 数据分析与挖掘区别从定义说明:数据分析采用统计学方法,对获取的数据进行描述性和探索性分析,并从分析结论中发现数据间存在的价值,价值大多通过图的形式呈现。数据挖掘则是采用统计学,机器学习,人工智能的方法,对获取的数据,进行提炼、转化(类似于赌石),从数据中发掘出表象看不到的价值和规律从工作侧重点:数据分析更侧重于实际业务,贴合业务展开分析工作,而数据挖掘更侧重于技术,通过更前进更换的算法,去提炼出更有价值的东西从输出结果出来:数据原创 2021-05-07 17:21:44 · 616 阅读 · 0 评论