YelpDaset: 酒店管理类数据集10+G

最新推荐文章于 2024-06-17 09:42:23 发布

邓旭东HIT

最新推荐文章于 2024-06-17 09:42:23 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/weixin_38008864/article/details/103826124

版权

线上课程 精选课 | Python网络爬虫与文本数据分析(学术)
线下课程 2020杭州Python&Stata数据分析课寒假工作坊

在昨天发的综述:文本分析在市场营销研究中的应用里提到了yelp数据集，官网显示"Yelp数据集是我们用于个人，教育和学术目的的业务，评论和用户数据的子集。以JSON文件形式提供，可用于在学习如何制作移动应用程序的同时，向学生介绍数据库，学习NLP或提供示例生产数据。"

yelp官网显示，这个数据集亮点如下：

668+w条评论
19+w个商业机构
20w张图片
10个都市区域
字段包括:营业时间、是否泊车、可用性和环境

在kaggle上也能看到使用这个数据集的案例，说不定有你需要的分析方法。

我已经从yelp官网下载了数据

参照kaggle的很多例子，咱们也在自己电脑上跑跑简单的分析

business数据读取

kaggle中的数据是csv文件，咱这里是json，略有不同，但读取都可以用pandas读取

import pandas as pd
#一开始用注释掉的代码，有bug，经过百度找到lines=True解决方案
#business = pd.read_json('yelp_dataset/business.json')
business = pd.read_json('yelp_dataset/business.json', lines=True)
business.head()

评分分布

import seaborn as sns
sns.color_palette()

[(0.12156862745098039, 0.4666666666666667, 0.7058823529411765),
 (1.0, 0.4980392156862745, 0.054901960784313725),
 (0.17254901960784313, 0.6274509803921569, 0.17254901960784313),
 (0.8392156862745098, 0.15294117647058825, 0.1568627450980392),
 (0.5803921568627451, 0.403921568627451, 0.7411764705882353),
 (0.5490196078431373, 0.33725490196078434, 0.29411764705882354),
 (0.8901960784313725, 0.4666666666666667, 0.7607843137254902),
 (0.4980392156862745, 0.4980392156862745, 0.4980392156862745),
 (0.7372549019607844, 0.7411764705882353, 0.13333333333333333),
 (0.09019607843137255, 0.7450980392156863, 0.8117647058823529)]

import matplotlib.pyplot as plt
import seaborn as sns
colors = sns.color_palette()
rating = business['stars'].value_counts()
rating.sort_index(inplace=True)
rating.plot(kind='bar', 
            figsize=(10, 5),
            color=colors[:9],
            rot=0) #字体倾斜角度
plt.title('Rating Distribution of Yelp',fontweight='bold')
plt.show()

行业统计

查看行业店家数量分布

import numpy as np
business['categories'] = business['categories'].apply(lambda x: x if x else ' ')
category_str = ','.join(business['categories'])
category_list = category_str.split(',')
category_df = pd.DataFrame(category_list, columns=['category'])
top15_category = category_df['category'].value_counts()[:15]
top15_category
top15_category.plot(kind='bar',
                    color=colors[:20],
                    figsize=(20, 10), 
                    rot=30,
                    fontsize=20)
plt.title('Top 20 Category in Yelp',
          fontsize=25, 
          fontweight='bold')
plt.show()

城市分布

显示yelp中Top20城

citys = business['city'].value_counts()[:20]
citys.sort_values(ascending=True, inplace=True)#降序，原地修改原始数据
citys.plot(kind='barh',   #水平条形图
           figsize=(10, 15),
           fontsize=20,
           color=colors[:20])
plt.title('Top 20 city in the Yelp', 
          fontsize=20, 
          fontweight='bold')
plt.show()