1、数据降维
1.1 特征选择(简单介绍)过滤器(特征的方差为0就过滤掉)、嵌入式(正则化、决策树)
def var_del():
"""特征选择,删除方差小的特征(一列)"""
matrix = np.array([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
var = VarianceThreshold(threshold=0.0)#删除方差为0的
data = var.fit_transform(matrix)
print(data)
return None
1.2 主成分分析 本质是PCA,损失少量数据,当特征比较大,例如上百时才选择这个方法
"""
高维数据,容易出现相关例如123456 24681012,是一个成比例的数据
n componevts是数据保留,小数则是数据保留百分比一般0.9-0.95
整数则是保留的特征数量,一般用小数
"""
def pca():
"""主成分分析"""
mt= [[2,8,4,5],[6,3,0,8],[5,4,9,1]]
pca = PCA(n_components=0.9)
data = pca.fit_transform(mt)
print(data)
return None
2、机器学习
2.1认识机器学习
# 数据类型,应用的算法不同,离散型和连续型
"""
分类:针对目标值是离散的