context
尽管许多公共数据集提供了Apple App Store数据,但在网络上的任何地方,都没有太多可用于Google Play Store应用程序的对应数据集。 深入研究后,我发现iTunes App Store页面部署了索引良好的附录式结构,以实现简单便捷的Web抓取。 另一方面,Google Play商店使用复杂的现代技术(例如动态页面加载)和JQuery,使抓取更具挑战性
content
每个应用程序(行)具有类别,等级,大小等的值。
Acknowledgements
该信息是从Google Play商店中抓取的
data preparation
首先我们有两个数据集,googleplaystore.csv(对谷歌appstore的统计)googleplaystore_user_reviews.csv(用户对谷歌appstore的评价)导入googleplaystore.csv里面有13列,对App的名字、种类、评分、回看次数,大小,下载量,价格。。。进行了统计
Data Clean
把Size属性列转化为M的形式
去除Install属性列的+并把它转化为numeric
使用Google翻译库将所有评论文本转换为英语
把Price价格的$去掉