Python数据分析NumPy和pandas（四十、Python 中的建模库statsmodels 和 scikit-learn）

最新推荐文章于 2025-05-18 07:05:43 发布

FreedomLeo1

最新推荐文章于 2025-05-18 07:05:43 发布

阅读量2k

点赞数 50

分类专栏： Python数据分析文章标签： python 数据分析 statsmodels scikit-learn 机器学习 numpy和pandas

本文链接：https://blog.csdn.net/FreedomLeo1/article/details/143905347

版权

主要学习两个流行的建模工具包，statsmodels 和 scikit-learn。

一、pandas 与模型代码之间的接口

模型开发的常见工作流程是使用 pandas 进行数据加载和清理，然后再切换到建模库来构建模型本身。模型开发过程的一个重要部分在机器学习中称为特征工程，这可以描述从原始数据集中提取可能在建模上下文中有用信息的任何数据转换或分析。之前学习的数据聚合和 GroupBy 工具经常用于特征工程上下文中。

pandas 和其他分析库之间的连接点通常是 NumPy 数组。要将 DataFrame 转换为 NumPy 数组，请使用 to_numpy 方法（代码解释在注释中）：

import pandas as pd

data = pd.DataFrame({'x0': [1, 2, 3, 4, 5], 
                     'x1': [0.01, -0.01, 0.25, -4.1, 0.], 
                     'y': [-1.5, 0., 3.6, 1.3, -2.]})
print(data)
print(data.columns)
print(data.to_numpy())

# 要转换回 DataFrame，可以传递一个带有可选列名的二维 ndarray
df2 = pd.DataFrame(data.to_numpy(), col

了解本专栏