Python数据分析-google play store的app数据分析

最新推荐文章于 2021-07-07 10:17:47 发布

Itachi_敢梦敢当

最新推荐文章于 2021-07-07 10:17:47 发布

阅读量1k

点赞数 1

分类专栏： Python 文章标签：数据分析 python

本文链接：https://blog.csdn.net/Itachi_dream/article/details/104800083

版权

本文使用Python对Google Play Store的应用数据进行深入分析，揭示应用市场的关键趋势和特征。

摘要由CSDN通过智能技术生成

#!/usr/bin/env python
# coding: utf-8

# 明确分析目的:了解装机app中不同分类安装、评价等信息，为上线新app作指导
# 软件分类中APP数量最多的前10个分组；# 安装量最高的前五个分类
# 收费软件集中在哪些分类中，头部占比多少
# 免费和收费软件各自的评论安装比是多少
# 不同app分类下免费/收费软件的平均评分、装机数量级
# 哪些分类下软件评论较多，平均评分如何
# 参数相关性

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 本次分析涉及列有App、Category、Type、Size、Price、Reviews、Installs、Rating
# 经查看对应数据表列索引的0 1 2 3 4 5 6 7 12
df = pd.read_csv('./googleplaystore.csv', usecols=(0, 1, 2, 3, 4, 5, 6, 7))
df.head() # 查看前五行

	App	Category	Rating	Reviews	Size	Installs	Type
0	Photo Editor & Candy Camera & Grid & ScrapBook	ART_AND_DESIGN	4.1	159	19M	10,000+	Free
1	Coloring book moana	ART_AND_DESIGN	3.9	967	14M	500,000+	Free
2	U Launcher Lite – FREE Live Cool Themes, Hide ...	ART_AND_DESIGN	4.7	87510	8.7M	5,000,000+	Free
3	Sketch - Draw & Paint	ART_AND_DESIGN	4.5	215644	25M	50,000,000+	Free
4	Pixel Draw - Number Art Coloring Book	ART_AND_DESIGN	4.3	967	2.8M	100,000+	Free

# 查看数据信息
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10841 entries, 0 to 10840
Data columns (total 8 columns):
App         10841 non-null object
Category    10841 non-null object
Rating      9367 non-null float64
Reviews     10841 non-null object
Size        10841 non-null object
Installs    10841 non-null object
Type        10840 non-null object
Price       10841 non-null object
dtypes: float64(1), object(7)
memory usage: 677.7+ KB

# 查看⾏列数量
df.shape

(10841, 8)

# 查看各列非空数据量
df.count()
# -->可见Rating、Type、Android Ver列有缺失值

App         10841
Category    10841
Rating       9367
Reviews     10841
Size        10841
Installs    10841
Type        10840
Price       10841
dtype: int64

# 查看是否有完全重复的行数据
len(df[df.duplicated()])

# App处理 查看有没有重复值（App名称重名也正常）
pd.unique(df['App']).size #查看App名不重复的数据量
# 或使用
# df[df['App'].duplicated()] #可见重复App名很多
# df['App'].counts()

# Category 清洗
df['Category'].value_counts(dropna=False)  # 结果有一条名为1.9的异常值
df.drop(df[df['Category'] == '1.9'].index, inplace = True) # 删除

# Rating 清洗
df['Rating'].value_counts(dropna = False) # 结果显示有1474条NaN
# 在前述df.count()方法中可见Rating有缺失值

最低0.47元/天解锁文章

Itachi_敢梦敢当

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录