基于文本特征的价格模型

本文探讨了在二手市场中利用商品标题和描述等文本特征进行价格预测的方法,通过分析Mercari数据集,使用TFIDF和GRU模型,实现了对商品价格的准确估算。通过模型集成,最终RMSLE达到0.3873,接近竞赛最优结果。
摘要由CSDN通过智能技术生成

摘要:

二手市场相对于新品市场的核心竞争力在于其价格优势。对于二手市场的消费者的核心诉求是找到保证质量的前提下找到价格优惠的商品。但相较于新品市场,二手市场作为C2C市场,商品更加非标准化,交易场景更加非标准化,因此给二手商品提供的合理的定价,引导买卖双方在合理的价格区间达成交易,能极大提高二手交易的效率。

日本大型的电商APP Mercari发起并赞助了Mercari PriceSuggestion Challenge,详细请参考(https://www.kaggle.com/c/mercari-price-suggestion-challenge)。竞赛的内容是根据Mercari提供的商品描述、标题、类目等信息预估商品的价格,例如下面两个毛衣的价格分别为$335$9.99,我们可以通过商品的描述判断其相应的价格。

640?wx_fmt=png

640?wx_fmt=png

Evaluation metric是模型的RMSLE (Root Mean Squared Logarithmic Error),具体的细节我们会在下文展开。竞赛的first placewinner在测试数据集上的RMSLE达到了0.3875。由于这个竞赛跟我们的课题非常类似,因此我们也在Mercari提供的数据集上进行了一些尝试。我们的模型精度达到0.3873,与第一名的结果基本持平。下面我们会展开我们对这个问题的解决思路和详细的结果。

  

正文

1.数据分析和处理

Mercari提供的价格数据包括如下信息:商品的标题、商品的描述、商品的类目、商品的新旧程度(离散变量),商品是否包邮,商品的价格。现在我们有训练集和测试集两个数据集,其中训练集有118.6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值