【Python】理解分类变量和连续变量

最新推荐文章于 2025-04-11 06:30:00 发布

音乐学家方大刚

最新推荐文章于 2025-04-11 06:30:00 发布

阅读量2.6k

点赞数 12

分类专栏： Python 文章标签： python 分类开发语言

本文链接：https://blog.csdn.net/qq_35240081/article/details/138865378

版权

Python 专栏收录该内容

158 篇文章

订阅专栏

凡是血肉的东西都难与灵魂一样高扬。

在数据分析和建模过程中，变量可以分为不同的类型，其中最常见的两种类型是分类变量和连续变量。理解这两种变量类型及其处理方法对于数据分析和建模的成功至关重要。本文将介绍分类变量和连续变量的概念，并通过实例说明如何处理和分析这些变量。

分类变量（Categorical Variables）

概念

分类变量是指取值有限且离散的变量，这些取值通常表示不同的类别或分类。分类变量可以进一步分为两类：

名义变量（Nominal Variables）：没有内在顺序的分类变量。例如，性别（男、女）、颜色（红、绿、蓝）。
有序变量（Ordinal Variables）：具有内在顺序的分类变量。例如，教育水平（小学、中学、大学）、满意度（不满意、一般、满意）。

示例

假设我们有一组顾客数据，包括性别、会员等级和是否购买的情况：

import pandas as pd

data = {
    'CustomerID': [1, 2, 3, 4, 5],
    'Gender': ['Male', 'Female', 'Female', 'Male', 'Female'],
    'Membership': ['Silver', 'Gold', 'Gold', 'Silver', 'Bronze'],
    'Purchased': [1, 0, 1, 0, 1]
}
df = pd.DataFrame(data)
print(df)

输出：

   CustomerID  Gender Membership  Purchased
0           1    Male     Silver          1
1           2  Female       Gold          0
2           3  Female       Gold          1
3           4    Male     Silver          0
4           5  Female     Bronze          1

分类变量处理

在分析和建模过程中，分类变量需要转换为数值形式。常用的方法包括：

标签编码（Label Encoding）：将每个类别转换为唯一的整数。
独热编码（One-Hot Encoding）：为每个类别创建一个二进制变量（0或1）。
示例代码：

# 标签编码
df['Gender_Label'] = df['Gender'].astype('category').cat.codes

# 独热编码
df = pd.get_dummies(df, columns=['Membership'])

print(df)

输出：

   CustomerID  Gender  Purchased  Gender_Label  Membership_Bronze  Membership_Gold  Membership_Silver
0           1    Male          1             1                  0                0                  1
1           2  Female          0             0                  0                1                  0
2           3  Female          1             0                  0                1                  0
3           4    Male          0             1                  0                0                  1
4           5  Female          1             0                  1                0                  0

连续变量（Continuous Variables）

概念

连续变量是指可以取无限多个值的变量，这些值通常是数值，并且在一定范围内是连续的。连续变量通常用于测量和计量，例如身高、体重、温度、收入等。

示例

假设我们有一组学生成绩的数据，包括学生ID、数学成绩和英语成绩：

data = {
    'StudentID': [1, 2, 3, 4, 5],
    'Math_Score': [88, 92, 75, 85, 90],
    'English_Score': [78, 85, 82, 90, 88]
}
df = pd.DataFrame(data)
print(df)

输出：

   StudentID  Math_Score  English_Score
0          1          88             78
1          2          92             85
2          3          75             82
3          4          85             90
4          5          90             88

连续变量处理

在分析和建模过程中，连续变量通常需要标准化或归一化，以提高模型的性能和稳定性。常用的方法包括：

标准化（Standardization）：将变量转换为均值为0、标准差为1的标准正态分布。
归一化（Normalization）：将变量的值缩放到0到1之间。
示例代码：

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 标准化
scaler = StandardScaler()
df[['Math_Score_Std', 'English_Score_Std']] = scaler.fit_transform(df[['Math_Score', 'English_Score']])

# 归一化
scaler = MinMaxScaler()
df[['Math_Score_Norm', 'English_Score_Norm']] = scaler.fit_transform(df[['Math_Score', 'English_Score']])

print(df)

输出：

   StudentID  Math_Score  English_Score  Math_Score_Std  English_Score_Std  Math_Score_Norm  English_Score_Norm
0          1          88             78       0.179605          -1.279427         0.619048           0.000000
1          2          92             85       0.985828          -0.240806         1.000000           0.636364
2          3          75             82      -1.793307          -0.702319         0.000000           0.454545
3          4          85             90      -0.179605           0.818819         0.476190           1.000000
4          5          90             88       0.807479           1.403733         0.904762           0.863636