k折交叉验证法python实现_Python数据分析初级技能包整理（未完）

最新推荐文章于 2023-07-06 13:01:06 发布

weixin_39997311

最新推荐文章于 2023-07-06 13:01:06 发布

阅读量250

点赞数

文章标签： k折交叉验证法python实现 python 交叉验证 python 回归 statsmodels python 多项式回归假设检验 python决策树 value sklearn 相关性分析

数据分析，可以分为探索型、验证型与预测型三大类。

利用Seaborn绘图函数绘制常见图表：barplot、pointplot、distplot、regplot、boxplot、countplot、FacetGrid、stripplot、swarmplot、violinplot 等。

Seaborn绘图背景样式控制：seaborn.set_style('parameter')

在Spyder/IPython中(Anaconda会自带这两个IDE)输入seaborn.图类型(时，会自动跳出可设置调整的参数列表，如：

Seaborn更多用法教程，见官方文档：seaborn: statistical data visualization

其他绘图工具推荐：

需要掌握的统计学知识：

Statsmodels：用于实现统计建模和计量经济学的工具包，主要包括描述统计、统计模型估计和统计推断。StatsModels: Statistics in Python

Scipy：一个数学、科学和工程计算Python工具包，包括统计、优化、整合、线性代数等等与科学计算有关的包。SciPy Documentation

常见机器学习算法：线性回归、逻辑回归、k近邻（kNN）、k均值（k-means）、DBSCAN、决策树、随机森林、Adboost、GBDT、Xgboost。了解这些算法的优缺点和适用范围。

参数优化方法：最小二乘法（OLS）、梯度下降法

OLS（Ordinary Least Squares）最小二乘法是一种优化方法，用于求得目标函数的最优值。简单的说就是：让我们的预测值
与真实值

总的拟合误差（即总残差）达到最小。损失函数：预测值与真实值总的拟合误差（即总残差）。
梯度下降：线性回归与梯度下降算法。

过拟合、欠拟合与高阶模型

特征选择

相关性：考察在我们已有的数据里面的特征x与预测值y的相关度（皮尔逊相关系数r）
迭代：确定要使用哪个算法后，选择最合适的训练子集，从而使得模型的效果最好（暴力解法、迭代增加、迭代减少）
基于模型：通过模型直接得出每个训练特征的重要性的模型，或者是在进行预测时加入的一些正则化调整，从而筛选出最重要的特征（Gini Importance、Mean Decrease Accuracy、正则化Lasso回归）

用sklearn实现机器学习算法

模型性能评估方法

交叉检验

k-folds（k折交叉验证法）：将初始数据集分割成 k 份，其中1份被保留作为验证模型的数据，其他 k-1 份用来训练。交叉验证重复 k 次，每份数据作为验证集验证一次，平均 k 次的结果或者使用其它结合方式，最终得到一个单一估测
leave-one-out（留一交叉验证法）：只使用原本样本中的一项来当做验证集，而剩余的则留下来当做训练集。这个步骤一直持续到每个样本都被当做一次验证数据

分类算法的评估方法主要有：ROC，AUC，confusion matrix等。

聚类模型的性能指标主要分为内部指标（Internal Index）和外部指标（External Index）两类。内部指标适用于无标注数据，根据聚类结果中簇内相似度和簇间分离度进行聚类质量评估；而外部指标适用于有标注数据，将聚类结果与已知类标签进行比较。聚类算法评价指标。

关注