[机器学习笔记] 用Python分析：红葡萄酒质量分析（数据探索）

最新推荐文章于 2023-11-12 13:36:09 发布

梅森上校

最新推荐文章于 2023-11-12 13:36:09 发布

阅读量1.2w

点赞数 7

分类专栏：机器学习（ML）数据分析

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/seagal890/article/details/105319859

版权

本文使用Python对红葡萄酒质量数据进行分析，包括数据导入、描述性统计和可视化。通过柱形图、散点图、堆积图等多种图表揭示价格、评分和产地等信息，探讨葡萄酒的相关特性。

摘要由CSDN通过智能技术生成

用Python分析：红葡萄酒质量分析（数据探索）

数据集：winemag-data_first150k.csv

先来导入数据

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.formula.api import ols, glm

# 将数据集读入到pandas数据框中
wine = pd.read_csv('C:\\Machine-Learning-with-Python-master\\data\\winemag-data_first150k.csv', sep=',', header=0)
wine.columns = wine.columns.str.replace(' ', '_')
print(wine.head())

查看数据集的行和列信息

#查看数据集行列数
print("该数据集共有 {} 行 {} 列".format(wine.shape[0],wine.shape[1]))

wine.columns

解释一下列的含义：

列名	含义
country	葡萄酒来自的国家
description	描述葡萄酒的味道、气味、外观、感觉等
designation	酿酒厂内的葡萄园，酿造葡萄酒的葡萄来自葡萄园
points	Wine Enthusiast 对葡萄酒的评分为 1-100 （尽管他们说他们只对评分>=80的葡萄酒发表评论）
price	一瓶葡萄酒的成本
province	葡萄酒来自的产地
region_1	葡萄酒来自的产地
region_2	葡萄酒来自的产地
variety	用于酿造葡萄酒的葡萄种类
winery	生产葡萄酒的酿酒厂