Scikit-learnAPI
数据集通过其提供的api获取
获取数据集
小数据
sklearn.datasets.load_*(数据集名)
大规模数据
Sklearn.datasets.fetch_*
特征抽取
-
字典特征提取
sklearn.feature_extraction.DictVectorizer
-
文本特征提取
sklearn.feature_extraction.text.CountVectorizer sklearn.feature_extraction.text.TfidVectorizer
针对中文需要先进行分调
-
图像特征提取
特征预处理(数值型数据的无量纲化)
归一化
sklearn.preprocessing.MinMaxScaler
最大值最小值非常容易受异常点影响
标准化
sklearn.preprocessing.StandardScalar
少量异常点影响不大
特征降维
特征选择
- 低反差特征过滤
- 相关系数
嵌入式方法
主成分分析
sklearn.decomposition.PCA