RecSys的Yelp推荐比赛数据简单分析

支票检测的项目催得很紧,手写体识别这块也不是很顺利,之前断断续续也没有把Yelp的比赛起个好的开头。这周末最后还是放弃了wap的coding题,把Yelp的数据做了一下简单的数据分析。只是重点对评分review进行分析,没有对tag、checkin等其他做分析

任务描述

比赛任务基于主办方给出的商家信息、用户信息、用户在商家的check-in信息和评论信息进行商家推荐。算法是需要参赛者预测用户对其未曾打分的商家的打分。


训练数据

训练数据集包含四个文件

yelp_training_set_business.json(主要包含商家的信息)

yelp_training_set_checkin.json(用户对商家的checkin信息)

yelp_training_set_review.json(用户对商家的评论以及评论,包含打分数据)

yelp_training_set_user.json(用户profile信息,只包含了公开自己信息的user,user信息不全)


主要对商家、用户和review信息进行分析

business.json和user.json文件进行分析

用户user数量:43873

商家business数量:11537

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值