python进行EDA探索性数据分析

1.查看数据的类型概况

cols = [c for c in train.columns]   #返回数据的列名到列表里

print('Number of features: {}'.format(len(cols)))

print('Feature types:')
train[cols].dtypes.value_counts()

 

结果如下:

           Number of features: 376
           Feature types:
                  Out[5]:
             int64     368
             object      8
             dtype: int64

 

2.查看特征的数值范围

counts = [[], [], []]
for c in cols:
    typ = train[c].dtype
    uniq = len(np.unique(train[c]))          #利用np的unique函数看看该列一共有几个不同的数值
    if uniq == 1:                                       #  uniq==1说明该列只有一个数值
        counts[0].append(c)
    elif uniq == 2 and typ == np.int64:   #  uniq==2说明该列有两个数值,往往就是0与1的二类数值
        counts[1].append(c)
    else:
        counts[2].append(c)

print('Constant features: {}\n Binary features: {} \nCategorical features: {}\n'.format(*[len(c) for c in counts]))

print('Constant features:', counts[0])
print('Categorical features:', counts[2])

 

 结果如下:

    Constant features: 12
               Binary features: 356
    Categorical features: 10

    Constant features: ['X11', 'X93', 'X107', 'X233', 'X235', 'X268', 'X289', 'X290', 'X293', 'X297', 'X330', 'X347']
    Categorical features: ['ID', 'y', 'X0', 'X1', 'X2', 'X3', 'X4', 'X5', 'X6', 'X8']

 

3.画出类别特征值的分布情况

pal = sns.color_palette()

for c in counts[2]:
  value_counts = train[c].value_counts()
  fig, ax = plt.subplots(figsize=(10, 5))
  plt.title('Categorical feature {} - Cardinality {}'.format(c, len(np.unique(train[c]))))
  plt.xlabel('Feature value')
  plt.ylabel('Occurences')
  plt.bar(range(len(value_counts)), value_counts.values, color=pal[1])
  ax.set_xticks(range(len(value_counts)))
  ax.set_xticklabels(value_counts.index, rotation='vertical')
  plt.show()

 

 

 

转载于:https://www.cnblogs.com/gczr/p/7084251.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
探索性数据分析EDA)是数据分析的第一步,它帮助我们了解数据的基本情况,包括变量类型、分布、关系和缺失值等。在Python进行探索性数据分析可以使用pandas库来导入和处理数据。\[1\] 在进行探索性数据分析时,我们可以按照以下步骤进行: 1. 数据导入:使用pandas库的read_csv函数导入数据集。 2. 检查数据:查看数据的基本信息,包括列名、数据类型和缺失值等。 3. 特征分析:对不同类型的变量进行分析,包括分类性变量、定序变量、连续型变量和离散型变量等。可以使用统计图表和描述统计等方法进行分析。 4. 相关性分析:通过计算变量之间的相关系数来了解它们之间的关系。 在进行探索性数据分析时,可以使用各种Python库和函数来辅助分析,例如pandas、matplotlib和seaborn等。\[2\] 需要注意的是,以上是一般的探索性数据分析步骤,具体的分析方法和技巧可以根据数据集的特点和分析目的进行调整和选择。\[1\] 总之,Python提供了丰富的工具和库来进行探索性数据分析,通过对数据的基本情况进行分析,我们可以为后续的模型建立和特征工程提供基础。\[1\] #### 引用[.reference_title] - *1* *2* [利用python进行探索性数据分析EDA):以Kaggle泰坦尼克号数据集为例](https://blog.csdn.net/weixin_45052363/article/details/124432266)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Python探索性数据分析](https://blog.csdn.net/m0_72829928/article/details/126772827)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值