感谢关注天善智能,走好数据之路↑↑↑
欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!
天善智能社区地址:https://www.hellobi.com/
数据获取
数据来源:Kaggle数据集
了个葡萄酒评分的数据,下载下来之后,内容是这样的:
一共有150929条记录
数据集的描述是这样的:
在观看Somm(侍酒师纪录片)之后,数据及提供者想知道如何创建一个预测模型,通过像侍酒师那样的盲品来鉴别葡萄酒。 第一步是收集一些数据来训练一个模型。 他打算根据品酒的描述/评论中使用的单词利用深度学习来预测葡萄酒品种。 该模型虽然不能品尝葡萄酒,但理论上可以基于侍酒师可以给出的描述来识别葡萄酒。
小编百度了一下Somm的影片信息如下:
我们看看各字段含义:
评分(Points):评分为1-100
品种(Variety):用来制作葡萄酒的葡萄品种
描述(Description):侍酒师的几句话描述酒的味道,气味,外观,感觉等。
国家(Country):葡萄酒来自的国家
省(Province):葡萄酒来自的省份或州
区域1(Region 1):一个省或州的葡萄酒产区(即纳帕)
区域2(Region 2):有时在葡萄酒产区内有更具体的区域,但是这个值有时可能是空白的
酒庄(Winery):酿酒的酿酒厂
名称(Designation):葡萄酒酿造厂所在的葡萄园
价格(Price):一瓶葡萄酒的价格
数据探索
我们使用pandas读取这个文件:
我们查看一下前五行数据: