数据分析可视化项目(二)--谷歌App store

在这里插入图片描述

context

尽管许多公共数据集提供了Apple App Store数据,但在网络上的任何地方,都没有太多可用于Google Play Store应用程序的对应数据集。 深入研究后,我发现iTunes App Store页面部署了索引良好的附录式结构,以实现简单便捷的Web抓取。 另一方面,Google Play商店使用复杂的现代技术(例如动态页面加载)和JQuery,使抓取更具挑战性

content

每个应用程序(行)具有类别,等级,大小等的值。

Acknowledgements

该信息是从Google Play商店中抓取的

data preparation

在这里插入图片描述

在这里插入图片描述
首先我们有两个数据集,googleplaystore.csv(对谷歌appstore的统计)googleplaystore_user_reviews.csv(用户对谷歌appstore的评价)导入googleplaystore.csv里面有13列,对App的名字、种类、评分、回看次数,大小,下载量,价格。。。进行了统计

Data Clean

把Size属性列转化为M的形式

去除Install属性列的+并把它转化为numeric

使用Google翻译库将所有评论文本转换为英语

把Price价格的$去掉

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

特征工程在这里插入图片描述

在这里插入图片描述
从上面的图很清晰的简单看出
rating(评分)和install(下载)、和size(大小)和review(评论)存在很大的相关性,
size(大小)和Rating(评分)、install(下载)都存在一定的相关性
install(下载)和 review(评论)都存在一定的相关性

哪个类别在市场上(活动)应用程序中占有最高的份额?

在这里插入图片描述
家庭和游戏应用程序的市场占有率最高。
有趣的是,工具,业务和医疗应用程序也在赶上。
在这里插入图片描述

单因素试验one-anove

让我们来分解一下,检查是否有类别表现得特别好或不好。

试验中要考察的指标称为试验指标,影响试验指标的条件称为因素,因素所处的状态称为水平,若试验中只有一个因素改变则称为单因素试验
方差分析就是对试验数据进行分析,检验方差相等的多个正态总体均值是否相等,进而判断各因素对试验指标的影响是否显著,根据影响试验指标条件的个数可以区分为单因素方差分析、双因素方差分析和多因素方差分析。在这里插入图片描述
p值非常小,因此我们拒绝零假设,而支持替代假设
各个类别的平均应用评分差异很大。这样子就可以说明我们影响各个类别的平均分的假设是错误的
在这里插入图片描述
**结论:

  • 1,几乎所有应用类别的表现都不错。
    "HEALTH_AND_FITNESS"和"BOOKS_AND_REFERENCE"提供了质量最高 的应用,其中50%的应用评分高于4.5。 太高了!
  • 2,相反,“DATING”类别中有50%的应用程序的低于平均评分。
  • 3,“LIFESTYLE”,"FAMILY"和"COMMUNICATION"类别中也存在一些垃圾应用。**

尺寸调整策略-选择轻型与笨重?

在这里插入图片描述
这里很容易的看出来大多数最高评价的应用程序的最佳大小在2MB〜40MB之间-既不太轻也不不太重

定价策略-免费与付费?在这里插入图片描述

最受好评的应用的最佳价格在1 $〜30 $之间。 只有极少数价格高于20美元的应用。有那么一些App的价格在四百美元,但是评分相对不高

当前的定价趋势-如何为您的应用定价?

在这里插入图片描述

  • **很显然,
  • "MEDICAL"和"FAMILY"应用程序是最昂贵的。 一些医疗应用程序甚至可以扩展到80 $。
  • 所有其他应用的价格都在30美元以下。
  • 然而,所有游戏应用程序的合理价格都低于20美元。**

付费和免费应用在各个类别中的如何分布?在这里插入图片描述

付费应用程序的下载量与免费应用程序的下载量一样吗?在这里插入图片描述

与免费应用程序相比,付费应用程序的下载数量相对较少。 但是,还算不错。

付费应用和免费应用的大小如何变化?在这里插入图片描述

  • 大部分获得高评价的付费应用的尺寸很小。 这意味着大多数付费应用程序都是为满足特定功能而设计和开发的,因此并不庞大。
  • 用户喜欢为轻量级的应用付费。 体积庞大的付费应用在市场上的表现可能不佳。

评论的数量和下载量的相关性?

在这里插入图片描述

  • 评论数量和下载数量之间存在0.63的中度正相关。 这意味着,如果有更多人查看过某个给定的应用程序,则客户倾向于下载更多该应用程序。

  • 这也意味着许多下载应用程序的活跃用户通常还会留下评论或反馈。

  • 因此,让更多人评论您的应用可能是一个不错的主意,以增加您的应用在市场中的知名度!

WORDCLOUD词云-快速浏览评论:

在这里插入图片描述
免费的App

消极单词: ads, bad, hate

积极单词: good, love, best, great
在这里插入图片描述付费APP

消极单词: malware, problem

积极单词: great, love, easy

结论

  • Google Play商店上(活动)应用的平均评分为4.17。
  • 用户喜欢为轻量级的应用付费。 因此,体积庞大的付费应用在市场上的表现可能不佳。
  • 大多数最受好评的应用程序的大小都在大约2MB到40MB之间-既不太轻也不不太重。
  • 大多数最高评价的应用程序的最佳价格在〜1 $到〜30 $之间-既不太便宜也不太昂贵。
  • "MEDICAL"和"FAMILY"应用程序是最昂贵的,甚至可以扩展到80 $。
  • 如果有大量人评论了给定的应用程序,则用户倾向于下载更多该给定的应用程序。
  • 与付费应用相比,用户在审查免费应用时更加严峻和苛刻。
    ok 做到这里就结束了这样做一个简单的项目了,后续还有很多其他的小项目更新关注
    需要这样子的小项目来练练手的话可以关注公众号来获取在这里插入图片描述

在这里插入图片描述

输入【python_googleappstore_001】获取数据集和相应的代码

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 1024 设计师:上身试试 返回首页