来源
数据预处理
preprocessing
train_test_split
MinMaxScaler->[0,1]
MaxAbsScaler->[-1,1]
含极端值的处理Rebust…
非线性转换:OneHotEncoder
缺失值插补:SimpleImputer
标记缺失值:MissingIndicator
模型
random_state
机器学习
- 监督学习
- 分类
预测值y为有限的标签值集合- 支持向量机
sklearn.svm.SVC() - K-近邻
sklearn.neighbors.KNeighborsClassifier() - 决策树
sklearn.tree.DecisionTreeClassifier()
- 支持向量机
- 回归
预测值y是一个连续的目标变量- 简单回归分析
sklearn.linear_model.LinearRegression() - 带惩罚项的回归模型
- Lasso
sklearn.linear_model.Lasso - Ridge
sklearn.linear_model.Ridge
- Lasso
- 简单回归分析
- 分类
- 非监督学习
- K-均值聚类
sklearn.cluster.KMeans() - 分层聚类
sklearn.SpectralClustering()
- K-均值聚类
- 降维技术
- 主成分分析
sklearn.decomposition.PCA()
- 主成分分析
交叉验证迭代器
cross_val_score
cross_validate
分类
- KFold
- StratifiedKFold
- ShuffleSplit
超参数
-
GridSearchCV
-
RandomizedSearchCV
模型的评估
分类模型
- ROC
roc_curve
roc_aur_score
回归模型
metrices模块
- explain_variance_score
- f2_score
- mean_squared_error
聚类模型
- sihouette coefficient
轮廓系数
直观化
- 验证曲线
从而发现是否过拟合 - 学习曲线
模型从数据中学习的进步