Matplotlib数据分析可视化-实训

文章中的素材directory.csv下载链接

链接:https://pan.baidu.com/s/12q4U_U99IKbqwU1_bB_HQQ 
提取码:8zm9

本实训是针对一组关于全球星巴克门店的统计数据,分析在不同的国家和地区以及中国不同城市的星巴克门店的数量

一、导入模块

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#显示中文
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False

二、获取数据模块

#导入数据

 dt = pd.read_csv('data//directory.csv')
 print(data.tail(2))

三、数据分析及可视化模块

1、查看全世界星巴克一共有多少家门店

count = dt.Brand.value_counts() 
print('星巴克旗下的品牌有:\n',count)

输出结果:

2、每个国家开设店铺的数量

查看全世界一共有多少个国家和地区开设了星巴克门店,

df = dt.groupby(['Country']).size()
print('每个国家开设星巴克门店的数量:\n',df)
print('有多少个国家开设了星巴克门店:\n',df.size)

3、显示门店数量排名前10和后10的国家和地区

#按值进行降序排序
df1 =df.sort_values(ascending=False)
print('开设门店排名前10的国家:\n',df1.head(10))
print('开设门店排名后10的国家:\n',df1.tail(10))

4、用柱状图绘制门店数量排名前10的国家的分布情况

plt.rcParams['font.size'] = 12
df1.head(10).plot(kind='bar')
plt.title('星巴克门店排名前10的国家分布图')
plt.xlabel('国家地区')
plt.ylabel('门店数量')
plt.show()

输出结果:

5、显示拥有星巴克门店数量排名前10的城市的分布 情况

#按城市分组,统计每个城市的数量
df2 = dt.groupby(['City']).size()
#降序排序
df_city =df2.sort_values(ascending=False)
plt.rcParams['font.size'] = 12
#前10的城市绘制柱状图
df_city.head(10).plot(kind='bar')
plt.title('星巴克门店排名前10的城市分布图')
plt.xlabel('城市')
plt.ylabel('门店数量')
#显示出来
plt.show()

输出结果:

6、统计星巴克门店在中国的分布情况,统计排名前5的城市

首先需要将中国的城市名去掉市,改为拼音,例如 上海市----shanghai

需要导入第三方插件包(添加方式同上)

#删除空值
start  = dt.dropna(how='any',subset=['City'])
#查找中国的数据
df = start[start['Country']=='CN']
#拷贝一份
df1 = df.copy()
#将城市的名改为小写
#df1['City'] = df1['City'].apply(lambda x:x.lower)
#将汉字城市名改为小写拼音,去掉'市'的拼音
df1['City'] = df1['City'].apply(lambda x:pinyin.get(x,format='strip',delimiter='')[0:-3])
#统计每个城市的星巴克门店数量
df1_city=df1.groupby(['City']).size()
df1_city_sort = df1_city.sort_values(ascending=False)
print(df1_city_sort.head(10))

输出结果:

7、用柱状图绘制中国星巴克数量排名前10的分布城市

df1_city_sort.head(10).plot(kind='bar',rot=30)
plt.title('星巴克门排名前10的城市')
plt.ylabel('门店的数量')
plt.xlabel('城市')
plt.show()

输出结果:

8、用饼状图显示星巴克门店的经营方式有哪几种

ownership = dt['Ownership Type'].value_counts()
print(ownership)
plt.title('星巴克门店所有权类型:\n')
ownership.plot(kind='pie')
plt.show()

  • 3
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
电商平台数据可视化是指将电商平台产生的大量数据通过图表、图像等形式进行展示和分析,以便更直观地了解电商平台的运营情况、用户行为等相关信息。 在spark项目实训中,我们可以通过使用Spark来处理和分析电商平台的数据,并将其可视化展示出来。以下是一个可能的实施方案: 1. 数据采集:首先,我们需要从电商平台的数据库中提取出所需的数据。这些数据可以包括订单信息、用户信息、商品信息等等。 2. 数据清洗和预处理:通过Spark对采集到的数据进行清洗和预处理,去除无效或错误的数据,并进行必要的数据转换和计算,以便后续的分析和可视化操作。 3. 数据分析:使用Spark的强大计算能力,对清洗和预处理后的数据进行各种统计分析,如订单量、销售额、用户活跃度等等。这些分析结果将成为后续可视化展示的依据。 4. 可视化展示:利用可视化工具(如Matplotlib、Tableau等),将分析得到的数据结果呈现在图表、图像等形式上。可以使用柱状图、折线图、饼图等不同类型的图表来展示数据,以便更直观地了解电商平台的运营情况。 5. 用户交互:为了增加用户的参与和互动,可以在可视化展示平台上添加交互式功能,如选择日期范围、点击某个图表获取详细数据等等。这样用户可以根据自己的需求去探索和分析数据,增加数据可视化的实用性和趣味性。 通过以上步骤,我们可以将电商平台的数据通过Spark进行处理和分析,并通过可视化展示呈现给用户,帮助他们更好地了解和分析电商平台的情况,从而做出有效的决策和改进策略。这种数据可视化的方式可以提高数据分析的效率和可理解性,帮助电商平台实现更好的运营和发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值