sklearn
文章平均质量分 97
xia ge tou lia
致力于数据分析行业~
展开
-
机器学习——数据集划分——train_test_split和np.split方法
一、train_test_splitsklearn中有方法能将数据集划分为训练集和测试集,实现过程如下:from sklearn.model_selection import train_test_split #数据分区x=np.arange(72).reshape(24,3) #24个样本点,3个维度y=np.arange(24)X_train,X_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=0原创 2020-08-25 11:45:37 · 8111 阅读 · 3 评论 -
多元统计分析——数据降维——因子分析(FA)
一、因子分析(Factor Analysis ,FA)1、因子分析与主成分分析的比较区别:因子分析需要构造因子模型,着重要求新变量具有实际的意义,能解释原始变量间的内在结构。 主成分分析仅仅是变量变换,是原始变量的线性组合表示新的综合变量,强调新变量贡献了多大比例的方差,不关心新变量是否有明确的实际意义。联系:两者都是降维和信息浓缩的方法。 生成的新变量均代表了原始变量的大部...原创 2020-06-22 22:53:09 · 26449 阅读 · 1 评论 -
机器学习——特征工程——数据离散化(时间离散,多值离散化,连续数据离散化,分位数,聚类法,频率区间,二值化)
离散化:就是把无限空间中有限的个体映射到有限的空间中。数据离散化操作大多是针对连续数据进行的,处理之后的数据值域分布将从连续属性变为离散属性。离散化方式会影响后续数据建模和应用效果: 使用决策树往往倾向于少量的离散化区间,过多的离散化将使得规则过多受到碎片区间的影响。 关联规则需要对所有特征一起离散化,关联规则关注的是所有特征的关联关系,如果对每个列单独离散化将失去整体规则性。...原创 2020-04-29 13:41:48 · 8670 阅读 · 1 评论 -
机器学习——数据的共线性问题(岭回归、LASSO回归、逐步回归、主成分回归)
一、如何检验共线性容忍度(Trlerance):容忍度是每个自变量作为因变量对其他自变量进行回归建模时得到的残差比例,大小用1减得到的决定系数来表示。容忍度的值介于0和1之间,如果值越小,说明这个自变量与其他自变量间越可能存在共线性问题。 方差膨胀因子(Variance Inflation Factor,VIF):VIF是容忍度的倒数,值越大则共线性问题越明显,通常以10作为判断边界。当VI...原创 2020-04-27 10:19:52 · 13785 阅读 · 0 评论 -
机器学习——python解决样本类别分布不平衡(过抽样、欠抽样、集成、SVM)
一、样本不均衡所谓的不均衡指的是不同类别(标签)的样本量差异非常大。样本类别分布不均衡主要出现在分类相关的建模问题上。样本不均衡将导致样本量小的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖于有限的数据样本而导致过拟合的问题,当模型应用到新的数据上时,模型的准确性和健壮性将很差。样本不均衡从数据规模的角度分为: 大数据分布不均衡:例如1000万条数据集...原创 2020-04-23 14:18:32 · 14096 阅读 · 6 评论 -
机器学习——数据降维——主成分分析(PCA)和奇异值分解(SVD)
一、主成分分析(PCA)主成分分析,Principal Component Analysis (PCA),是现代数据分析的标准工具,它可以把庞大复杂的高维数据集,通过数学变换,转化成较低维度的数据集,并去除掉维度之间的相关性。1、PCA原理主成分分析的原理非常简单,概括来说就是选择包含信息量大的维度,去除信息量少的“干扰”维度。注意:这边所谓的“维度”不是原始数据的某个特征,而是原...原创 2020-04-18 17:55:23 · 7217 阅读 · 0 评论 -
机器学习——有监督——决策树(分类树)相关原理及sklearn实现(信息熵、基尼系数、信息增益、特征重要程度的量化)
一、决策树原理决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种图结构,我们只需...原创 2020-04-14 22:37:54 · 7954 阅读 · 1 评论 -
python中利用OneHotEncoder进行分类变量和顺序变量的标志转换
数据建模的过程中,很多算法无法直接处理非数值型的变量。非数值变量主要分为分类变量和顺序变量。一、分类变量和顺序变量分类变量:(性别:男、女)(颜色:红、黄、绿.)顺序数据:(学历:博士、研究生、学士)(用户价值:高、中、低)二、运用标志方法处理分类和顺序变量将所有分类或顺序变量的值域从一列多值的形态转换为多列只包含真值的形态,称为标示法,如下图:【讨论】为何不能直接...原创 2020-04-13 23:03:14 · 3596 阅读 · 0 评论