1、sklearn降维,是指降特征值维度,比如将原来可能的10列特征值降低至5列。
sklearn降维API:sklearn. decomposition
2、特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征, 特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯 定比选择前小,毕竟我们只选择了其中的一部分特征。
主要方法(三大武器):
Filter(过滤式):VarianceThreshold
Embedded(嵌入式):正则化、决策树
Wrapper(包裹式)
3、Filter(过滤式):VarianceThreshold
sklearn特征选择API:sklearn.feature_selection.VarianceThreshold
VarianceThreshold(threshold = 0.0) 删除所有低方差特征
Variance.fit_transform(X,y)
X:numpy array格式的数据[n_samples,n_features]
返回值:训练集差异低于threshold的特征将被删除。
默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。
4、主成分分析PCA:特征数量达到上百的时候,考虑数据的简化
本质:PCA是一种分析、简化数据集的技术。
目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。
作用:可以削减回归分析或者聚类分析中特征的数量。
高维度数据容易出现的问题:特征之间通常是线性相关的。
PCA方法夫人API: sklearn. decomposition.PCA
PCA(n_components=None) 将数据分解为较低维数空间
PCA.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值:转换后指定维度的array
n_components:
小数:0~1 一般输入90% 最好选择输入的范围是90%~95%
整数:减少到的特征数量(一般很难知道减少到的特征数量,所以不怎么用)
5、交叉表(特殊的分组工具)
cross= pd.crosstab(mt["user_id"],mt["aisle"])行索引,列索引
6、算法分类:
监督学习(输入数据有特征有标签,即有标准答案)
监督学习(英语:Supervised learning),可以由输入数据中学 到或建立一个模型,并依此模式推测新的结果。输入数据是由 输入特征值和目标值所组成。函数的输出可以是一个连续的值 (称为回归),或是输出是有限个离散值(称作分类)。
分类:目标值离散型,最基础的便是二分类问题,即判断是非,从两个类别中选择一个作为预测结果。方法包括k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
回归:目标值连续性,回归用于预测输入变量和输出变量之间的关系,输出是连续型的值。方法包括线性回归、岭回归
标注:隐马尔可夫模型 (不做要求)
无监督学习(输入数据有特征无标签,即无标准答案)
无监督学习(英语:Supervised learning),可以由输入数据中 学到或建立一个模型,并依此模式推测新的结果。输入数据是 由输入特征值所组成。
聚类:k-means
7、机器学习开发流程: