Sweetviz 项目教程

张飚贵Alarice

于 2024-09-24 07:49:00 发布

阅读量391

点赞数 4

本文链接：https://blog.csdn.net/gitblog_00462/article/details/142473833

版权

Sweetviz 项目教程

sweetviz Visualize and compare datasets, target values and associations, with one line of code. 项目地址: https://gitcode.com/gh_mirrors/sw/sweetviz

1. 项目介绍

Sweetviz 是一个开源的 Python 库，旨在通过生成美观且高密度的可视化报告来快速启动探索性数据分析（EDA）。只需两行代码，Sweetviz 就能生成一个完全自包含的 HTML 应用程序，帮助用户快速分析目标特征、训练数据与测试数据的对比以及其他数据特征化任务。

2. 项目快速启动

安装

首先，使用 pip 安装 Sweetviz：

pip install sweetviz

基本使用

以下是一个简单的示例，展示如何使用 Sweetviz 生成数据分析报告：

import sweetviz as sv

# 加载数据集
import pandas as pd
data = pd.read_csv('titanic.csv')

# 生成报告
my_report = sv.analyze(data)

# 显示报告
my_report.show_html()  # 默认生成 "SWEETVIZ_REPORT.html"

参数说明

analyze(source, target_feat=None, feat_cfg=None, pairwise_analysis='auto', verbosity='default')
- source: 数据框或包含数据框和名称的元组。
- target_feat: 目标特征的名称。
- feat_cfg: 特征配置对象，用于跳过某些特征或强制指定特征类型。
- pairwise_analysis: 是否进行成对分析，默认自动。
- verbosity: 输出详细程度，可选值为 full, progress_only, off。

3. 应用案例和最佳实践

案例1：Titanic 数据集分析

使用 Titanic 数据集进行目标特征分析，例如“Survived”特征与其他特征的关系：

import sweetviz as sv
import pandas as pd

data = pd.read_csv('titanic.csv')
my_report = sv.analyze(data, target_feat='Survived')
my_report.show_html()

案例2：训练数据与测试数据对比

对比训练数据与测试数据，分析数据分布的差异：

import sweetviz as sv
import pandas as pd

train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

my_report = sv.compare([train_data, "Training Data"], [test_data, "Test Data"])
my_report.show_html()