支票检测的项目催得很紧,手写体识别这块也不是很顺利,之前断断续续也没有把Yelp的比赛起个好的开头。这周末最后还是放弃了wap的coding题,把Yelp的数据做了一下简单的数据分析。只是重点对评分review进行分析,没有对tag、checkin等其他做分析
任务描述
比赛任务基于主办方给出的商家信息、用户信息、用户在商家的check-in信息和评论信息进行商家推荐。算法是需要参赛者预测用户对其未曾打分的商家的打分。
训练数据
训练数据集包含四个文件
yelp_training_set_business.json(主要包含商家的信息)
yelp_training_set_checkin.json(用户对商家的checkin信息)
yelp_training_set_review.json(用户对商家的评论以及评论,包含打分数据)
yelp_training_set_user.json(用户profile信息,只包含了公开自己信息的user,user信息不全)
主要对商家、用户和review信息进行分析
对business.json和user.json文件进行分析
用户user数量:43873
商家business数量:11537