如何在网上选到一瓶心仪的红酒?通过文本分析预测葡萄酒的质量

大数据文摘作品

编译:高延


爱酒人士应该都知道,选红酒是个需要大量知识储备的技术活——产地、年份、包装、饮用场合,每个元素的变化都会对口感产生一定的影响。


Towards Data Science上一位作者(同时也是轻度葡萄酒饮用者)用一组Kaggle的数据集撰写了一个可以帮忙在网上选红酒的AI小程序。


该数据中包含对葡萄酒的评论,葡萄酒评级(以分数衡量),以及从WineEnthusiasts网站提取的其他相关信息。他通过训练一个机器学习模型,实现了根据基于文本分析预测葡萄酒质量。


数据集按照日期被划分为两组数据文件。一组作为训练集,把一组作为测试集。


以下是整个训练过程,一起看看。


目标:训练一个机器学习模型,实现基于文本分析的葡萄酒质量预测


WineEnthusiast的用户会对葡萄酒评分,1表示最差,100表示最好。不幸的是,传到网站上的都是正面评论,所以数据集里分数值只分布在80-100之间。


这意味着我们所用的这套数据并不能很好反应我们在探索的问题。因此,基于这套数据所建立的模型只适用于评论较好的酒。在进行分析之前,我们还是得先预习一些圈内基本知识。通过从阅读葡萄酒网站及一些相关资源,我找到一种自认为不错的分级方案,按照评分进行分级。如下所示。



对于一个最终用户(白话说就是买葡萄酒的),评分就是他们想要传达的信息。如果我们按照上述划分形式,我们就能既减少了葡萄酒信息维度又能保留住质量相关信息。


重要决定:我把这个问题定义为一个倾向性分析问题,基于用户评价判断葡萄酒属于Classic(典藏酒)、Superb(豪华酒)、Excellent(

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值