用Python分析:红葡萄酒质量分析(数据探索)
数据集:winemag-data_first150k.csv
先来导入数据
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.formula.api import ols, glm
# 将数据集读入到pandas数据框中
wine = pd.read_csv('C:\\Machine-Learning-with-Python-master\\data\\winemag-data_first150k.csv', sep=',', header=0)
wine.columns = wine.columns.str.replace(' ', '_')
print(wine.head())
查看数据集的行和列信息
#查看数据集行列数
print("该数据集共有 {} 行 {} 列".format(wine.shape[0],wine.shape[1]))
wine.columns
解释一下列的含义:
列名 | 含义 |
country | 葡萄酒来自的国家 |
description | 描述葡萄酒的味道、气味、外观、感觉等 |
designation | 酿酒厂内的葡萄园,酿造葡萄酒的葡萄来自葡萄园 |
points | Wine Enthusiast 对葡萄酒的评分为 1-100 (尽管他们说他们只对评分>=80的葡萄酒发表评论) |
price | 一瓶葡萄酒的成本 |
province | 葡萄酒来自的产地 |
region_1 | 葡萄酒来自的产地 |
region_2 | 葡萄酒来自的产地 |
variety | 用于酿造葡萄酒的葡萄种类 |
winery | 生产葡萄酒的酿酒厂 |
显示数据集中的记录