Python数据分析-google play store的app数据分析

本文使用Python对Google Play Store的应用数据进行深入分析,揭示应用市场的关键趋势和特征。
摘要由CSDN通过智能技术生成
#!/usr/bin/env python
# coding: utf-8
# 明确分析目的:了解装机app中不同分类安装、评价等信息,为上线新app作指导
# 软件分类中APP数量最多的前10个分组;# 安装量最高的前五个分类
# 收费软件集中在哪些分类中,头部占比多少
# 免费和收费软件各自的评论安装比是多少
# 不同app分类下免费/收费软件的平均评分、装机数量级
# 哪些分类下软件评论较多,平均评分如何
# 参数相关性
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 本次分析涉及列有App、Category、Type、Size、Price、Reviews、Installs、Rating
# 经查看对应数据表列索引的0 1 2 3 4 5 6 7 12
df = pd.read_csv('./googleplaystore.csv', usecols=(0, 1, 2, 3, 4, 5, 6, 7))
df.head() # 查看前五行
App Category Rating Reviews Size Installs Type Price
0 Photo Editor & Candy Camera & Grid & ScrapBook ART_AND_DESIGN 4.1 159 19M 10,000+ Free 0
1 Coloring book moana ART_AND_DESIGN 3.9 967 14M 500,000+ Free 0
2 U Launcher Lite – FREE Live Cool Themes, Hide ... ART_AND_DESIGN 4.7 87510 8.7M 5,000,000+ Free 0
3 Sketch - Draw & Paint ART_AND_DESIGN 4.5 215644 25M 50,000,000+ Free 0
4 Pixel Draw - Number Art Coloring Book ART_AND_DESIGN 4.3 967 2.8M 100,000+ Free 0
# 查看数据信息
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10841 entries, 0 to 10840
Data columns (total 8 columns):
App         10841 non-null object
Category    10841 non-null object
Rating      9367 non-null float64
Reviews     10841 non-null object
Size        10841 non-null object
Installs    10841 non-null object
Type        10840 non-null object
Price       10841 non-null object
dtypes: float64(1), object(7)
memory usage: 677.7+ KB
# 查看⾏列数量
df.shape
(10841, 8)
# 查看各列非空数据量
df.count()
# -->可见Rating、Type、Android Ver列有缺失值
App         10841
Category    10841
Rating       9367
Reviews     10841
Size        10841
Installs    10841
Type        10840
Price       10841
dtype: int64
# 查看是否有完全重复的行数据
len(df[df.duplicated()])
485
# App处理 查看有没有重复值(App名称重名也正常)
pd.unique(df['App']).size #查看App名不重复的数据量
# 或使用
# df[df['App'].duplicated()] #可见重复App名很多
# df['App'].counts()
9660
# Category 清洗
df['Category'].value_counts(dropna=False)  # 结果有一条名为1.9的异常值
df.drop(df[df['Category'] == '1.9'].index, inplace = True) # 删除
# Rating 清洗
df['Rating'].value_counts(dropna = False) # 结果显示有1474条NaN
# 在前述df.count()方法中可见Rating有缺失值
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值