pandas_profiling：数据探索工具EDA

cy^2

已于 2022-06-09 09:49:39 修改

阅读量316

点赞数

分类专栏： pandas 小技巧文章标签： python 数据挖掘数据分析

于 2022-06-09 09:07:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34120015/article/details/125196449

版权

pandas 小技巧专栏收录该内容

8 篇文章 0 订阅

订阅专栏

pandas_profiling基于pandas的DataFrame数据类型，可以简单快速地进行探索性数据分析。

对于数据集的每一列，pandas_profiling会提供以下统计信息：

概要：数据类型，唯一值，缺失值，内存大小
分位数统计：最小值、最大值、中位数、Q1、Q3、最大值，值域，四分位
描述性统计：均值、众数、标准差、绝对中位差、变异系数、峰值、偏度系数
最频繁出现的值，直方图/柱状图
相关性分析可视化：突出强相关的变量，Spearman, Pearson矩阵相关性色阶图

并且这个报告可以导出为HTML，非常方便查看。

import pandas as pd
from pandas_profiling import ProfileReport
#from pandas_profiling.utils.cache import cache_file
# 数据读取
df = pd.read_csv("./data/titanic.csv")
# 根据数据生成报告
profile = ProfileReport(df, title="Titanic Dataset", explorative=True)
profile.to_file("titanic_pf_report.html")

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas_profiling：数据探索工具EDA

pandas_profiling基于pandas的DataFrame数据类型，可以简单快速地进行探索性数据分析。对于数据集的每一列，pandas_profiling会提供以下统计信息：并且这个报告可以导出为HTML，非常方便查看。
复制链接

扫一扫

专栏目录

cy^2 CSDN认证博客专家 CSDN认证企业博客

码龄9年

60: 原创

38万+: 周排名

156万+: 总排名

14万+: 访问

: 等级

738: 积分

19: 粉丝

87: 获赞

9: 评论

540: 收藏

私信

关注

热门文章

分类专栏

最新评论

4、特征选择(filter)：卡方检验特征筛选
赛可乐: 对于连续变量与离散变量的分析很有帮助，谢谢
4、特征选择(filter)：卡方检验特征筛选
火桑依旧: 0类标签0.7，1类标签0.3，结果0类特征行数55行，1类特征行数45行，你真是给我逗笑了
特征变换：特征归一化（Normalization）作用以及方法 Min-Max、Z-Score
求求你们别复制粘贴了: 一个错误：零均值归一化，要求经过处理的数据符合标准正态分布，这句话是错误的。1.减去均值除以标准差，只能是得到均值是0，方差是1的分布，但不是正态分布。2.任何一堆数据都可以进行如上操作，这些操作并不会对原数据的分布构成影响，（只不过是平移+缩放）其次，挺反感这些命名的。minmax得到的是[0,1]的数据，叫归一化没问题，零均值只是得到了均值为0方差为1，数据值照样可以不落在【-1，1】凭啥叫归一化？还有一种除以范数的保证的是各维度1范数和2范数的和是1，人家叫作标准化叫做归一化不也可以么？英文都叫做normalization，国人硬生生自己把一个单词分为归一、标准、单位化，自己给自己找罪受。要我说，这些操作都叫做标准化操作，只不过是最后得到的结果是不同的标准
5、特征选择(filter)：方差分析(ANOVA)
weixin_45048015: 卡方检验改成方差分析
presto架构和概念介绍
Xd聊架构: 来互动吧，帮我点赞最新的一篇文章，谢谢！！！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。