2020 MCM Weekend 2 Problem C,2020美赛C题——整理版思路

学科竞赛 专栏收录该内容
12 篇文章 1 订阅

问题一

问题原文

  1. Analyze the three product data sets provided to identify, describe, and support with mathematical evidence, meaningful quantitative and/or qualitative patterns, relationships, measures, and parameters within and between star ratings, reviews, and helpfulness ratings that will help Sunshine Company succeed in their three new online marketplace product offerings.
    分析提供的三个产品数据集,根据识别,描述和支持的数学证据,确定有意义的定量和/或定性的模式、关系、度量和参数,这些数据将在星级,评论和帮助等级之内和之间进行,这将有助于Sunshine 公司在他们的三个新的在线销售的产品取得成功。

参考思路

思路①:

分析数据集,将数据集中的文本进行文本数据分析,然后用Spss软件建立回归模型,自变量为 评价星级、有用性投票、评论,因变量为产品上线后是否会取得成功。

思路②:

首先,对数据集进行 完整性、冗余度等筛选,然后利用python或者MATLAB对评价的词频进行统计,最后再预测一个方程来拟合数据,得到每个评语对应的权重。总之,最重要的是先对评价做词频统计!

思路③:

运用数据挖掘和文本挖掘算法,利用python等对题中所给的数据库建立客户评价分析系统,最后得到产品上线后取得成功的概率。

问题二

问题原文

  1. Use your analysis to address the following specific questions and requests from he Sunshine Company Marketing Director:
    2.使用您的分析解决阳光公司市场总监的以下特定问题和要求:
  • a. Identify data measures based on ratings and reviews that are most informative for Sunshine Company to track, once their three products are placed on sale in the online marketplace.
    a. 一旦三种产品在在线市场上出售后,根据评级和评论来识别数据度量,这对于Sunshine Company最为有用。
  • b. Identify and discuss time-based measures and patterns within each data set that might suggest that a product’s reputation is increasing or decreasing in the online marketplace.
    b. 在每个数据集中识别并讨论基于时间的度量和模式,这些度量和模式可能表明产品在在线市场中的声誉在上升或下降。
  • c. Determine combinations of text-based measure(s) and ratings-based measures that best indicate a potentially successful or failing product.
    c. 确定最能表明潜在成功或失败产品的基于文本的度量和基于评级的度量的组合。
  • d. Do specific star ratings incite more reviews? For example, are customers more likely to write some type of review after seeing a series of low star ratings?
    d. 特定的星级评级是否会引发更多的评论?例如,在看到一系列的低星级评价后,客户更有可能写一些评论吗?
  • e. Are specific quality descriptors of text-based reviews such as ‘enthusiastic’,‘disappointed’, and others, strongly associated with rating levels?
    e. 基于文本的评论的特定质量描述符,如“热情”、“失望”等,是否与评级水平密切相关?

参考思路

2.a 思路

预测三种产品上市后,根据对阳光公司产品的数据追踪,确定最有用的评级(星级和帮助等级)和评论的组合。即用问题一中的模型求出什么星级加什么帮助等级和什么评论就是最有用的组合。或者通过数据分析假设出一种综合评价机制,类似于Google发明的一个名为 pagerank的量——它可以度量网页的重要程度,从而对用户想搜索的网页进行排序。

2.b 思路

在模型中添加时间这一度量模式。用拟合曲线预测随着时间的增长,客户选购物品时,评级和评价的变化趋势。再通过挖掘筛选后的数据绘画出随着年份的增加三种产品在在线市场上评级的高低(声誉的高低)。最重要的是一定要考虑到time-based这个概念,即你的指标应该是可以随时间表示或可视化的,并且还必须得是动态的。

2.c 思路

此问是求最能表明潜在成功或失败的产品的评级和文本(评论)的组合,与a有些相似。即从最有用的组合中通过对比挑选出最能表示成功和失败的评级和文本组合。这一问可以考虑用第一问做出的词频统计结合文本情感分析来做。

2.d 思路

此问主要讨论星级与评论之间的关系,还是会用到挖掘筛选过的文本数据。对数据进行统计分析,看各个星级与评论文本的相关性。这里需要划分文本类型,可以通过词频统计自己赋值权重,也直接粗暴地通过通过特征词语(good, bad)划分。

2.e 思路

最后一小问就是结合对对文本数据的分析,可以去d题连着一起做,只需要找出词频最高的一些词并与评级做相关性分析即可。

结语

自由发挥,
分析合理,
自圆其说即可。

附录

2020 MCM Weekend 2 Problem C,2020美赛C题——完整版题目:完整版题目
2020 MCM Problem C Translation,2020美赛C题——详细版翻译:详细版翻译

  • 10
    点赞
  • 0
    评论
  • 33
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

2020 MCM Weekend 2 Problem C: A Wealth of Data 2020MCM周末2C:数据的财富 Problem In the online marketplace it created, Amazon provides customers with an opportunity to rate and review purchases. Individual ratings - called “star ratings” – allow purchasers to express their level of satisfaction with a product using a scale of 1 (low rated, low satisfaction) to 5 (highly rated, high satisfaction). Additionally, customers can submit text-based messages – called “reviews” – that express further opinions and information about the product. Other customers can submit ratings on these reviews as being helpful or not – called a “helpfulness rating” – towards assisting their own product purchasing decision. Companies use these data to gain insights into the markets in which they participate, the timing of that participation, and the potential success of product design feature choices. 在其创建的在线市场中,亚马逊为客户提供了对购买进行评分和评价的机会。个人评级-称为“星级”-使购买者可以使用1(低评级,低满意度)到5(高评级,高满意度)的等级来表示他们对产品的满意度。此外,客户可以提交基于文本的消息(称为“评论”),以表达有关产品的更多意见和信息。其他客户可以在这些评论中提交有帮助或无帮助的评分(称为“帮助评分”),以协助他们自己的产品购买决策。公司使用这些数据来深入了解其参与的市场,参与的时间以及产品设计功能选择的潜在成功。
©️2021 CSDN 皮肤主题: 鲸 设计师:meimeiellie 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值