预处理
文章平均质量分 72
糯米君_
算法工程师
展开
-
主成分分析法PCA-线性降维-特征降维
主成分分析法是最常用的线性降维方法,主要原理是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此达到使用较少的数据维度来保留较多的原数据点特性的效果。原创 2023-07-22 22:24:31 · 411 阅读 · 0 评论 -
线性判别分析法LDA-线性降维-特征降维
LDA的两种性质:①同类的数据点尽可能接近;②不同类的数据点尽可能分开。原创 2023-07-22 22:29:06 · 244 阅读 · 0 评论 -
基于模型的特征选择法SelectFromModel()函数筛选特征-嵌入法-特征选择-特征降维
SelectFromModel(根据重要性权重选择特征)主要采用基于模型的特征选择法,常见的有基于惩罚项的特征选择法和基于树模型的特征选择法。原创 2023-06-20 23:51:05 · 651 阅读 · 0 评论 -
递归消除特征法RFE筛选特征-包装法-特征选择-特征降维
RFE(Recursive feature elimination):递归消除特征法使用一个基模型(这里使用逻辑回归)来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练。原创 2023-06-20 23:27:29 · 1275 阅读 · 0 评论 -
SelectKBest()函数筛选特征-过滤法-特征选择-特征降维
SelectKBest()函数:选择K个最好的特征,返回选择特征后的数据。原创 2023-06-20 23:07:20 · 1531 阅读 · 0 评论 -
方差选择法筛选特征-过滤法-特征选择-特征降维
如果一个特征不发散,即方差接近0,就说明样本在这个特征上基本没有差异,这个特征对于样本的区分没有作用,使用方差选择法,计算各个特征的方差,然后根据阈值选择方差大于阈值的特征。原创 2023-06-20 22:45:48 · 291 阅读 · 0 评论 -
python 双类别型变量关联性分析-卡方检验chi2()
卡方检验:主要用于两个和两个以上样本率(构成比)及两个二值型离散变量的关联性分析,即比较理论频次与实际频次的吻合程度或拟合程度。原创 2023-05-03 17:17:58 · 1065 阅读 · 1 评论 -
python 计算相关性系数np.corrcoef()
计算相关性是分析连续型与连续型双变量的常用方法原创 2023-04-17 21:35:59 · 3270 阅读 · 0 评论 -
预处理--python实现可视化数据集(散点图矩阵+关联矩阵热力图分析特征相关性)
探索性数据分析(EDA)是在进行机器学习模型训练之前值得推荐的重要一步。其中:散点图矩阵,把数据集中不同特征之间的成对相关性在一张 图上直观地表示出来;关联矩阵来量化和概括变量之间的线性关系,可以把关联矩阵理解为协方差矩阵的修正;import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npdf = pd.read_csv('xxx\\housing.data.txt',原创 2020-11-28 21:37:09 · 3758 阅读 · 1 评论 -
预处理--python实现处理类的不平衡问题(对少数类上采样)
预处理(8):python实现处理类的不平衡问题(对少数类上采样)在模型拟合过程中,处理不平衡类比例的一种方法是对少数类的错误预测给予更大的惩罚。在scikit-learn中,只要把参数class_weight设置成 class_weight=‘balanced’,就可以很方便地调整这种惩罚的力度,大多数的分类器都是这么实现的。处理类不平衡问题的其他常用策略包括对少数类上采样,对多数类下采样以及生成人造训练样本。不幸的是没有万能的最优解决方案,没有对所有问题都最有效的技术。因此,建议在实践中对给定问题尝原创 2020-11-26 23:06:11 · 1049 阅读 · 2 评论 -
预处理--python实现以嵌套式交叉验证来选择算法
预处理(7):python实现以嵌套式交叉验证来选择算法嵌套式交叉验证有一个k折交叉验证外循环,负责把数据分裂为训练和测试子集,而内循环以k折交叉验证法在训练子集上选择模型。模型选择后,用测试子集来评估模型的性能。5×2交叉验证:五外两内数据子集的嵌套式交叉验证from sklearn.model_selection import validation_curveimport pandas as pdfrom sklearn.preprocessing import LabelEncoderf原创 2020-11-26 22:49:50 · 613 阅读 · 2 评论 -
预处理--python实现通过网格搜索为超参数调优
预处理(5):python实现通过网格搜索为超参数调优网格搜索方法的逻辑非常简单,属于暴力穷尽搜索类型,预先定义好不 同的超参数值,然后让计算机针对每种组合分别评估模型的性能,从而获得 最佳组合参数值。from sklearn.model_selection import validation_curveimport pandas as pdfrom sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection impo原创 2020-11-26 22:21:19 · 1019 阅读 · 0 评论 -
预处理--python实现scikit-learn的k折交叉验证得分器(评估模型)
预处理(5):python实现scikit-learn的k折交叉验证得分器(评估模型)cross_val_score方法极为有用的功能是可以把不同分区的评估任务分给计算机的多个CPU。假设把n_jobs设为1,只有一个CPU会用于性能评估,就像前面StratifiedKFold示例展示的那样。然而,如果设置n_jobs=2,可以把10轮交叉验证任务分给两个CPU来完成(如果系统有那么多CPU的话),如果设置n_jobs=-1,可以用计算机上所有可用的CPU同时进行计算。import pandas as原创 2020-11-26 22:36:05 · 646 阅读 · 1 评论 -
预处理--python实现scikit-learn的核主成分分析(核PCA)-分离半月形
预处理(4):python实现用scikit-learn的核主成分分析(核PCA)-分离半月形如果面对的是非线性问题(在现实世界中可能会遇到相当多这样的问题),像PCA和LDA这样的线性变换降维技术可能并不是最好的选择。 现介绍涉及核支持向量机的概念的核版PCA,或叫作 KPCA。讨论如何利用核PCA把不可线性分离的数据转换至适合线性分类器的新的低维子空间。from sklearn.decomposition import KernelPCAimport pandas as pdimport num原创 2020-11-25 00:04:22 · 1170 阅读 · 2 评论 -
预处理--python实现用scikit-learn实现的线性判别分析(LDA)
预处理(3):python实现用scikit-learn实现的线性判别分析(LDA)线性判别分析(LDA)可用于特征提取以提高计算效率和减少在非正则化过程中因维数过高而造成的过拟合。LDA背后的基本概念与PCA非常类似。PCA试图找到数据集中最大方差的正交成分轴,而LDA的目标是寻找和优化具有可分性的特征子空间。import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocess原创 2020-11-24 23:46:33 · 599 阅读 · 1 评论 -
预处理--python实现scikit-learn的主成分分析(PCA)
预处理(2):python实现scikit-learn的主成分分析PCA是scikit-learn的另一个转换器类,在用相同模型参数转换训练数据和测试数据之前,首先用训练数据来拟合模型。现在,把scikit-learn中的PCA类应用在葡萄酒训练集上,通过逻辑回归转换样本,调用plot_decision_region函数实现决策区域的可视化。import pandas as pdfrom sklearn.model_selection import train_test_splitfrom skle原创 2020-11-24 23:28:42 · 416 阅读 · 0 评论 -
预处理--python实现用随机森林评估特征的重要性
预处理:python实现用随机森林评估特征的重要性随机森林根据森林中所有决策树计算平均不纯度的减少来测量特征的重要性,而不作任何数据是线性可分或不可分的假设。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import MinMaxScalerfrom原创 2020-11-24 23:01:00 · 15333 阅读 · 13 评论