数据预处理
文章平均质量分 77
Handsome coder
let's code now
展开
-
从模型中选择最佳特征(SelectFromModel Feature Selection Example in Python)
SKLearn api提供selectfrom model类,用来提取数据集的最佳特征(根据其权重重要度)。selectfrom model是一个元估计器-通过与阀值进行比较,来决定权重重要性标题SelectFromModel for regression dataestimator = AdaBoostRegressor(random_state=0, n_estimators=50)selector = SelectFromModel(estimator)selector = selector原创 2021-05-05 07:50:53 · 1138 阅读 · 0 评论 -
Scikit-learn之最佳特征选择
一、如何使用SelectKBestclass sklearn.feature_selection.SelectKBest(score_func=, *, k=10)根据给定的选择器选择出前k个与标签最相关的特征。参数说明如下```pythonParametersscore_func: 可调用的函数输入两个数组X和y,并返回一对数组(分数,p-value)或带分数的单个数组。默认值为f_classif(请参见下文“另请参见”)。默认功能仅适用于分类任务。k:int or “all”, o原创 2021-05-05 06:45:16 · 998 阅读 · 0 评论 -
数据缺失处理
一、缺失值的处理方法由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法:1.忽略元组当缺少类别标签时通常这样做(假定挖掘任务涉及分类时),除非元组有多个属性缺失原创 2021-05-03 10:49:20 · 2103 阅读 · 1 评论 -
one-hot理解
one-hot是比较常用的文本特征特征提取的方法。one-hot编码,又称“独热编码”。其实就是用N位状态寄存器编码N个状态,每个状态都有独立的寄存器位,且这些寄存器位中只有一位有效,说白了就是只能有一个状态。假设有四个样本,每个样本有三种特征:这样,4个样本的特征向量就可以这么表示:sample1 -> [0,1,1,0,0,0,1,0,0]sample2 -> [1,0,0,1,0,0,0,1,0]sample3 -> [0,1,0,0,1,0,0,1,0]sample原创 2021-05-03 08:53:32 · 1773 阅读 · 0 评论 -
Scikit-learn之数据预处理
一、基本知识import numpy as npX = np.array([[1, 2], [4, 5], [7, 8]])print(X)# print (np.mean(X, axis=0, keepdims=True))#按列就平均值# print (np.mean(X, axis=1, keepdims=True))#按行就平均值print (np.mean(X, axis=0))#按列就平均值axis=0,那么输出矩阵是1行,求每一列的平均(按照每一行去求平均);axis=1,输出原创 2021-05-02 12:29:30 · 308 阅读 · 2 评论