特征处理

最新推荐文章于 2021-07-19 23:50:57 发布

blackjacki

最新推荐文章于 2021-07-19 23:50:57 发布

阅读量163

点赞数

分类专栏：机器学习文章标签：机器学习数据分析

本文链接：https://blog.csdn.net/qq_40391797/article/details/110332260

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文详细介绍了数据预处理中的关键步骤，包括字典特征抽取、文本特征提取（如TF-IDF）、数据归一化与标准化，以及缺失值处理和主成分分析（PCA）。这些技术在机器学习和数据分析中起到至关重要的作用，通过减少噪声、降低维度和增强模型性能。此外，还讨论了不同方法在异常值处理上的差异和适用场景。

摘要由CSDN通过智能技术生成

特征处理

字典特征抽取

作用：对字典数据进行特征值化

sklearn.feature_extraction.DictVectorizer
DictVectorizer(sparse=True,…)

DictVectorizer.fit_transform(X)       
#X:字典或者包含字典的迭代器
#返回值：返回sparse矩阵
DictVectorizer.inverse_transform(X)
#X:array数组或者sparse矩阵
#返回值:转换之前数据格式
DictVectorizer.get_feature_names()
#返回类别名称
DictVectorizer.transform(X)
#按照原先的标准转换

文本特征抽取

作用：对文本数据进行特征值化

sklearn.feature_extraction.text.CountVectorizer

CountVectorizer(max_df=1.0,min_df=1,…)
#返回词频矩阵
CountVectorizer.fit_transform(X,y)       
#X:文本或者包含文本字符串的可迭代对象
#返回值：返回sparse矩阵
CountVectorizer.inverse_transform(X)
#X:array数组或者sparse矩阵
#返回值:转换之前数据格式
CountVectorizer.get_feature_names()
#返回值:单词列表

TF-IDF

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，
并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分
能力，适合用来分类。

TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

sklearn.feature_extraction.text.TfidfVectorizer
TfidfVectorizer(stop_words=None,…)
#返回词的权重矩阵
TfidfVectorizer.fit_transform(X,y)       
#X:文本或者包含文本字符串的可迭代对象
#返回值：返回sparse矩阵
TfidfVectorizer.inverse_transform(X)
#X:array数组或者sparse矩阵
#返回值:转换之前数据格式
TfidfVectorizer.get_feature_names()
#返回值:单词列表

归一化

特点：通过对原始数据进行变换把数据映射到(默认为[0,1])之间
在这里插入图片描述
注：作用于每一列，max为一列的最大值，min为一列的最小值,那么X’’
为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0

sklearn.preprocessing.MinMaxScaler
MinMaxScalar(feature_range=(0,1)…)
#每个特征缩放到给定范围(默认[0,1])
MinMaxScalar.fit_transform(X)       
#X:numpy array格式的数据[n_samples,n_features]
#返回值：转换后的形状相同的array

注意在特定场景下最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。

标准化

特点：通过对原始数据进行变换把数据变换到均值为0,方差为1范围内

在这里插入图片描述
注：作用于每一列，mean为平均值，𝜎为标准差(考量数据的稳定性)

对于归一化来说：如果出现异常点，影响了最大值和最小值，那么结果显然
会发生改变

对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对
于平均值的影响并不大，从而方差改变较小。

scikit-learn.preprocessing.StandardScaler
StandardScaler(…)
#处理之后每列来说所有数据都聚集在均值0附近方差为1
StandardScaler.fit_transform(X,y)       
#X:numpy array格式的数据[n_samples,n_features]
#返回值：转换后的形状相同的array

StandardScaler.mean_
#原始数据中每列特征的平均值

StandardScaler.std_
#原始数据每列特征的方差

在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。

缺失值插补

Imputer(missing_values='NaN', strategy='mean', axis=0)
#完成缺失值插补
Imputer.fit_transform(X,y)       
#X:numpy array格式的数据[n_samples,n_features]
#返回值：转换后的形状相同的array

PCA

本质：PCA是一种分析、简化数据集的技术
目的：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。
作用：可以削减回归分析或者聚类分析中特征的数量

PCA(n_components=None)
将数据分解为较低维数空间
PCA.fit_transform(X)       
X:numpy array格式的数据[n_samples,n_features]
返回值：转换后指定维度的array

blackjacki

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录