一、研究背景
随着移动互联网的普及,智能手机已成为人们生活中不可或缺的一部分。移动应用市场经历了快速发展,应用种类也从娱乐、社交扩展到教育、医疗等各个领域。Google Play商店作为全球最大的Android应用市场之一,为用户提供了多种多样的应用选择。因此,通过对Google Play商店数据的分析,可以深入了解用户偏好、不同类型应用的市场表现,以及各类应用在用户群体中的接受程度。
在应用市场的庞大数据中,影响用户下载和使用的因素可能包括应用类别、评分、评论数量、应用大小、价格以及内容评级等。这些因素不仅影响用户的选择,还对开发者制定营销和推广策略具有指导意义。此外,探究这些因素之间的关系有助于识别应用市场的趋势,从而为开发者、运营商、广告商提供数据支持。
二、研究意义
本研究利用Google Play商店的数据,探索和揭示应用的类型、用户评分、安装量、价格、内容评级等因素的分布和相互关系,旨在帮助开发者了解用户需求,优化产品策略。具体而言,本研究的意义体现在以下几个方面:
-
帮助开发者和市场人员决策:通过分析不同类别的应用受欢迎程度、评分分布和安装数量等数据,开发者和市场团队可以洞察哪些类型的应用更受用户欢迎,从而更精准地定位目标用户。
-
提升应用用户体验:应用的评分和评论数可以反映出用户的满意度和潜在问题,通过数据分析可以识别高评分应用的共性特征,从而优化其他应用的设计和功能。
-
支持广告投放和推广策略:广告商可以借助安装量、用户评分、内容分级等指标,更精准地识别目标用户,优化广告投放和推广策略。
-
洞察市场趋势:分析应用类别在用户中的偏好变化可以帮助预测市场趋势,进一步挖掘特定应用类型的潜在市场和增长机会。
三、实证分析
该数据集包括 Google Play 商店中应用程序的各种属性。
数据集由 10,841 行组成,每行代表一个应用程序。总共有 13 个不同的列,包含 Google Play 商店中可用应用程序的匿名数据,捕获了评分、下载和分类等各个方面。
列名称描述
App:Google Play 商店中列出的应用程序名称。
Category:应用程序所属的类别(例如,ART_AND_DESIGN、GAME)。
Rating:额定值应用程序的用户评分,范围为 1 到 5。
Reviews:评论应用程序的用户评论数。
Size:应用程序的大小,以兆字节 (MB) 或千字节 (KB) 为单位。
Installs:应用的安装/下载次数(例如,10,000+)。
Type:指示应用程序是免费还是付费。
Price:应用的价格(以美元为单位)(如果是付费应用)。
Content Rating:应用的目标受众(例如,所有人、青少年、成熟 17+)。
Genres:流派与应用程序相关的类型(例如,艺术与设计,创意)。
Last Updated:上次更新应用程序的日期。
Current Ver:应用程序的当前版本。
Android Ver:运行应用程序所需的最低 Android 版本。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi'] #中文
plt.rcParams['axes.unicode_minus'] = False #负号
import seaborn as sns
import missingno as msno
from skimpy import skim
from wordcloud import WordCloud
pd.set_option('display.float_format', '{:.0f}'.format)
pd.set_option('display.max_columns', None)
import warnings
warnings.filterwarnings("ignore")
warnings.warn("this will not show")
导入数据集
df_original = pd.read_csv('google_play_store_dataset.csv')
df = df_original.copy()
查看数据集前五行
初始探索和分析值
Sk