Python数据分析系列（1）——葡萄酒评分

最新推荐文章于 2023-12-30 22:01:49 发布

R3eE9y2OeFcU40

最新推荐文章于 2023-12-30 22:01:49 发布

阅读量4.9k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/R3eE9y2OeFcU40/article/details/79585820

版权

本文通过Python分析葡萄酒评分数据集，展示了数据获取、预处理、评分与价格分布、国家与品种占比、酒庄信息等内容，揭示了评分与价格的关系、主要葡萄酒生产国和高性价比葡萄酒等洞察。

摘要由CSDN通过智能技术生成

感谢关注天善智能，走好数据之路↑↑↑

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

天善智能社区地址：https://www.hellobi.com/

数据获取

数据来源:Kaggle数据集

Kaggle数据：葡萄酒评分数据选

了个葡萄酒评分的数据，下载下来之后，内容是这样的：

葡萄酒评分数据集

一共有150929条记录

数据集的描述是这样的：

在观看Somm（侍酒师纪录片）之后，数据及提供者想知道如何创建一个预测模型，通过像侍酒师那样的盲品来鉴别葡萄酒。第一步是收集一些数据来训练一个模型。他打算根据品酒的描述/评论中使用的单词利用深度学习来预测葡萄酒品种。该模型虽然不能品尝葡萄酒，但理论上可以基于侍酒师可以给出的描述来识别葡萄酒。

小编百度了一下Somm的影片信息如下：

我们看看各字段含义：

评分（Points）：评分为1-100

品种（Variety）：用来制作葡萄酒的葡萄品种

描述（Description）：侍酒师的几句话描述酒的味道，气味，外观，感觉等。

国家（Country）：葡萄酒来自的国家

省（Province）：葡萄酒来自的省份或州

区域1（Region 1）：一个省或州的葡萄酒产区（即纳帕）

区域2（Region 2）：有时在葡萄酒产区内有更具体的区域，但是这个值有时可能是空白的

酒庄（Winery）：酿酒的酿酒厂

名称（Designation）：葡萄酒酿造厂所在的葡萄园

价格（Price）：一瓶葡萄酒的价格

数据探索

我们使用pandas读取这个文件：

pandas读取数据集

我们查看一下前五行数据：

最低0.47元/天解锁文章

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。