特征选择删除低方差特征
from sklearn.feature_selection import VarianceThreshold
def var():
var = VarianceThreshold(threshold=0.0)
data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])
print(data)
return None
if __name__ == "__main__":
var()
说明:
- VarianceThreshold语法
PCA降维:降低原数据的维数
from sklearn.decomposition import PCA
def pca():
pca = PCA(n_components=0.9)
data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
print(data)
return None
if __name__ == "__main__":
pca()
说明:
- PCA语法
- PCA原理和推导
- 适用于特征较多的情况
实例:用户类型-PAC降维
1.导入库和文件数据
2.合并表,便于数据处理
3.交叉分类取出用户与产品类型的矩阵
4.直接调用sklearn中的PCA降维即可
sklearn的数据集
API介绍
获取数据集返回的类型
数据集进行分割
用于分类的大数据集
fit_transfrom()与fit()和transfrom()
说明:
- 大多数情况都能直接使用fit_transform
- fit暂时不处理数据,只是获取数据的平均值、方差等