2020美赛C题解题思路(A Wealth of Data)

  • 文前推广

《计算机保研经历分享》
—— 大学期间参加了有含金量的比赛,该如何利用自身的优势保研、考研或求职?或者仅仅就是为了做一份好看的简历“以备不时之需”?
—— 关注我的文章,我会后期开始更新文章,以保研经历为切入口,分析“如何放大自身优势”,实现目标!
https://blog.csdn.net/qq_42037420/article/details/104353307

《数学建模想获奖?国赛、美赛看这一个就够了》
—— 数学建模的进阶指南!内容全面、门类齐全,包含组队、日常训练、算法(含MATLAB代码)、建模、写作和“高校内部培训资源”等诸多方面的指导!千载难逢、不容错过!
—— 有条件的朋友们支持一下,谢谢!
需要“数学建模国赛美赛资源包”的关注公众号“猫和真人”,回复“1”即可获得资源包,有条件的支持一下哈!


  • 正文

本文可能用到的网站链接:
https://ourworldindata.org/plastic-pollution

Problem C: A Wealth of Data

亚马逊在网购平台提供了两种功能:评级/星级(rate)、评估/评论(review)。个人评级称为“产品星级评估(star rating)”,也就是客户买完产品后的评价,由1星到5星;另外,购买产品的客户还能评论,表达自己的意见和信息。而其他客户还可以对这些评论进行评级,称为“帮助性评级/评论星级评级(helpfulness rating)”。公司用这些数据去了解市场、了解市场参与时机、对产品的设计改造等。

阳光公司打算在网上市场推出“吹风机”、“婴儿奶嘴”、“微波炉”三款产品。他们希望得到以往客户对同类竞争产品的评价,例如:关键模式(数据库领域术语,可以理解为这些产品逻辑层面上的结构)、关系、度量/评估/判定(可以理解为“评价”一类的意思)、各类参数(原文:key patterns, relationships, measures, and parameters)。PS:翻译或有不妥,请指正。以便为他们做两件事:(1)确定在线销售策略,(2)分析产品的关键设计特征,以提高产品的竞争力。

该公司曾用过数据来指导销售,但未用过如此特殊的数据组合,所以他们对其中的“基于时间的模式(time-based patterns)”很感兴趣,也希望知道这种方法能否帮助他们成功塑造产品的可交互性。

亚马逊已在附件中为您提供了相应三款产品(奶嘴、吹风机、微波炉)的往期数据,其中包括客户信息、评级信息、评论等有用的信息。

问题1:用数学的方法,对上述三款产品数据集进行分析。主要是根据“产品星级评估”、“评论”、“评论星级评级”,对“定量/定性模式(quantitative and/or qualitative patterns)”、“关系”、“度量/评价”、“各类参数”进行分析,来帮助公司。

三款产品往期数据标签:

marketplacecustomer_idreview_idproduct_idproduct_parentproduct_titleproduct_categorystar_ratinghelpful_votestotal_votesvineverified_purchasereview_headlinereview_bodyreview_date
市场所在地客户ID评论ID产品ID产品父项产品名称产品类别星级有帮助的选票总票数绿标是否已核实购买评论标题评论内容评论日期
  • “绿标”:早期评论人计划,和官方测评差不多;
  • “市场所在地”:与客户的喜好和受益人群有关,但是本题的marketplace都是US美国,所以可以作为冗余数据剔除;
  • “客户ID”:可分析客户的回头率、评价程度、喜好程度、购买时间、对商品的喜好是否有关联程度(有个啤酒与尿布的案例:中年男子的购物列表里经常同时出现尿布和啤酒,后研究发现是很多奶爸会在给宝宝买完尿布后给自己买啤酒喝,因此该商场将啤酒和尿布放在一起,使得两者销量大增)?喜欢购买的产品类型是否有特征;PS:客户ID是一个较为重要的数据标签。
  • “评论ID”:可分析客户的反馈,调整销售策略或改进产品。此处应该指的是参与投票时的“评论的特征序号”,用于区分不同的评论,可以与后面的“评论标题、评论内容”关联起来,“捆绑”三个数据标签;
  • “产品ID”:就是产品的名字,很重要。PS:前面提到的三个ID都是关键值(key);
  • “产品父项”、“产品名称”、“产品类别”:这三者和产品ID关联。产品父项指产品所属大类的序号,产品类别就是“宝宝用品”、“生活用品”、“家电”等,可作为冗余数据删除。PS:其中,“产品名称”、“产品父项”、“产品ID”可能会有冗余项,需对数据进行筛选后判断;
  • “星级”、“有帮助的票数“、”总票数“:”星级“是对产品的评级,后两者“票数”是对评论进行评价。可将这三者与后面的“评论标题、评论内容”进行关联,用“星级”评价商品,用“票数”评价“星级”,实现一个“三级评价指标”,增强此部分数据的可信度;
  • “是否已核实购买”:就是这个交易订单有没有成功,别没付钱,然后乱评价影响市场;
  • “评论日期”:就是对产品的评论日期,和阳光公司感兴趣的“基于时间的模式”有关。

解题思路1

  • 问题1提到,用[“产品星级评估”、“评论”、“评论星级评级”]对[“定量/定性模式(quantitative and/or qualitative patterns)”、“关系”、“度量/评价”、“各类参数”]进行分析。观察我刚刚的表述方式就可以大致设想一下,建立一个具有“输入”和“输出”的评价标准体系。

    此处可建立多种形式的模型,此处仅供举例说明用,方法不唯一。
    例如:f(产品星级评估,评论,评论星级评级)=(度量/评价,产品各类参数/喜好度/好评率/实用性/等等),而这个f(x)函数模型就是“模式”或“关系”的具体数学描述。

  • 其中,对于“定量/定性模式”和“关系”的挖掘是较为关键的。数据库模式是数据的一种逻辑形式,比如常说的“线性表”、“链表”、“树形图”都可以被称为一种数据库模式。针对于此题的话,可以就这么简单理解,不用深入。

  • 所以,在这题中,或许可能是个树形图。比如,根结点是客户,然后一级子节点是客户买过的东西,二级子节点是产品星级评级,三级是评论的星级评级,以此类推。抽象地来说就好像是在数据筛选处理之后,把.tsv文件里的表格数据顺时针旋转90°一样,得到的从根(客户ID)到叶子节点(星级、评论等)的模式。

  • 关于数据处理的方式,可以参考如下:

    首先,根据前文的数据性质,对数据进行完整性、冗余度等进行筛选(包括删除、插值等);
    然后将同类数据合并,并对数据进行标准化便于处理(比如好就是1,差评就是0),将文字尽量转化为数学符号表示;
    最后构造上述的f函数模型,以达到建立输入输出关系并反映评价标准的目的。方法可参考如下,暂不详述:灰度预测、神经网络预测、时间序列、模糊综合判断、主成分分析、层次分析等。(关于这些方法的功能有些遗忘,如果里面有不恰当的方法请替我指出)

问题2:分析、解决以下问题

  • a)基于对阳光公司影响最大的评级(rating)和评论(review)这两个指标,确定一个数据衡量(measures)方法;
  • b)基于那些“能预测或暗示产品在市场上声誉增加或减少的”数据,来分析讨论“基于时间的度量方法(measures)和模式(patterns)”;
  • c)以寻找一个“暗示或预示产品的成功或失败的”潜在性的方法为目的,确定一套“基于文本(text-based)和评级(rating-based)的综合度量方法”;
  • d)特定的星级是否会引起更多的评论?例如,客户看到一连串的差评,他是否会更倾向于写一个差评呢?
  • e)特定质量的文本评论(text-based reviews)是否和评级(rating)有强关联性呢?例如,“对产品很满意!”,“对产品很失望!”

解题思路2

a) 要求中已指明,是基于“评级rating”和“评论review”来建模,其中评级可以包括产品星级评级和评论星级评级。

  • 由于影响一个产品最重要的就是评级和评论,所以a题就让我们先考虑这两个因素;
  • 星级越高,说明产品越好;评论越好,说明产品越好,评论星级越高,说明评论越可信。其中需要注意的是,评论和星级的评价对象是产品,所以这两者之间理应是一致的,但是现在不时的会出现“五星差评”和“一星黑粉”等等,也就是说出现了评级和星级不一致的情况。那么,在这种情况下,有以下几个办法供参考:

    例如:首先对评级和星级进行关联度处理,筛选出星级和评论一致的数据,此时星级和评论的作用一致,两列数据一列冗余,可以删除一列;
    如果觉得剔除数据不擅长,可简化成下述方法,例如:将星级和评论分别标准化为权重,以权重来衡量这个产品的质量,比如我们通常会倾向于看评论而不是星级(五星差评),所以可以将评论的权重设置为70%,星级权重设置为30%,然后对上述两种数据归一化处理。
    PS:这一问需要一定的“自然语言处理(NLP)”的能力,对评论的感情进行分析。因为人的语言蕴含的感情不是几个词就能表示的——“好产品!!!”、“这东西好到让我吐!”、“哭了,没见过这样的宝贝!”

b) 要求已指明,是“基于时间的衡量方法和模式”。此处的模式可以想象成“以时间作为存储数据”的逻辑,类似于线性表,只不过坐标轴是时间。

  • 这一问中,想找到某种数据间的关联,这关联能表明产品的声誉是在随时间增加还是减少。因此这里就需要先对“时间”和“评级”建模,对“评级”的建模方法可参照a题,把星级和评论合二为一再处理;

  • 而对时间也得进行处理,因为在一段时间内,可能存在褒贬不一的情况,那么这个时候就需要在这段时间内对评级进行处理。

    例如,把好评差评按照权重进行综合;
    或者,对评价进行语言处理,分析一下到底是“真好评、真黑粉”还是“真差评、刷好评”。

  • 而在对评级、时间处理之后,就可以建立“时间-评级”模型,可以把产品的评价转化成数值,数值越高评级越好。这样的话,也许就能做出一条随时间变化的评级曲线:比如,好评(假设已经对一段时间内的好评差评进行综合处理之后)越来越多,那么曲线应该就是越来越高的;反之,口碑崩了的话,评级就会一落千丈。

  • 最后,需要在上述“时间-评级”模型的拐点进行处理,在拐点处对评级进行分析,是什么原因导致评级发生了变化。

    是有人发了好评,引起了更多人的共鸣?
    是有黑子带节奏,让不知情的人也来诋毁你的产品?
    还是什么其他原因?

  • 最后,才能得出基于时间的度量方法和模式,才能分析基于时间模式的产品声誉变化。

c) 就是找一个方法来推测产品是否能推广成功,前提是“基于文本和评级“。

  • 这个方法和b又差不多,就是在不同的逻辑模式下分析,寻找能影响产品评级拐点的关键因素。这里还是可以将文本评论和评级综合起来,然后寻找一个“能预测未来产品口碑的事件点或原因”。PS:类似于股市中的“利好消息”、“利空消息(即变差的意思)”,一旦某天出现了利好/利空消息,之后的时间就会跟随这个消息发生涨跌变化。

d) 探寻客户的情绪是否会随着他人的评论而被调动。就是让你分析一下,是不是人们都有从众心理,是不是容易被带节奏(包括带好节奏和带坏节奏)。

  • 在这个问题中,只需要在前几问的时间模式基础下,分析一段时间内是否会有较为集中的好评或差评即可。
  • 当然也可以说客户不容易被带动情绪,只有数据充分、言之有理即可。

e) 是否文本评论内容(text-based reviews)和评级(rating levels)有强关联?

  • 这个是前面我在a中提到的一点,如何对评论内容和评级进行关联。e题这一问确实需要对文本进行语义分析,确实涉及到“自然语言处理NLP”的知识。
  • 一般来说的话,文本评论越热情,评级当然会越高——“爱死这个宝贝啦!五星!!!”、“垃圾产品一生黑,给一颗星都嫌多,怎么不能给负的星?”

问题3

写一篇小报告!

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 1024 设计师:白松林 返回首页