数据分析项目-App Store评分数据案例

目录

案例导入

 核心变量解释

1.数据导入清洗

2.数据的分组分析及可视化 

业务问题分析 

业务问题1:收费App的价格分布是如何的?不同类别之间有关系吗?

业务问题2:免费和收费的App集中在哪些

业务问题3:免费与收费的App在不同的评分区间的分布

业务问题4:App的大小和用户评分之间有关系吗?


 案例导入

如今想在手机应用商店上成为成功的应用越来越难,对App下载和评分数据的分析成为帮助App开发者获取和留存用户的重要工具。Play商店应用数据具有巨大的潜力,可以推动应用制作业务取得成功。可以为开发人员提供可操作的见解,以便开发和捕获移动市场。

 我们想分析3个问题

  • 收费和免费的App都集中在哪些类别?
  • 收费App的价格分布是如何的?不同类别的价格分布是怎样的?
  • App文件的大小和价格以及用户评分之间有关系吗?

本课程分析流程

 核心变量解释

  • “id” : 苹果给提供的APP ID,每个app唯一
  • “track_name”: APP的名称
  • “size_bytes”: 以byte为单位的app大小
  • “price”: 定价(单位为美元)
  • “rating_count_tot”: 该app所有版本的用户评分数量
  • “rating_count_ver”: 该app当前版本的用户评分数量
  • “prime_genre”: app的类别
  • “user_rating” 该app所有版本的用户评分
  • “user_rating_ver”: 该app当前版本的用户评分
  • “sup_devices.num”: 支持的ios设备数量
  • “ipadSc_urls.num”: app提供的截屏展示数量
  • “lang.num”: 支持的语言数量

1.数据导入清洗

导入数据需要注意数据文件的相对位置和绝对位置
#调用基本包
import pandas as pd
#读取数据
app=pd.read_csv('w1_applestore.csv',index_col=0)
#数据的基本信息
app.head()

app.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 7197 entries, 0 to 7196
Data columns (total 10 columns):
id                  7197 non-null int64
track_name          7197 non-null object
size_bytes          7197 non-null int64
price               7197 non-null float64
rating_count_tot    7197 non-null int64
user_rating         7197 non-null float64
prime_genre         7197 non-null object
sup_devices         7197 non-null int64
ipadSc_urls         7197 non-null int64
lang                7197 non-null int64
dtypes: float64(2), int64(6), object(2)
memory usage: 618.5+ KB

没有缺失值

下面对数据进行整体描述,只对数值型有效 

app.describe()

 考虑将sizebytes变成mb,新增数据

app['size_mb']=app['size_bytes']/(1024*1024.0)
app.size_mb.describe()
cou
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值