ds判断预测蛋白活性位点_DS Project如何预测Google Apps评分

该博客探讨了如何利用数据科学(DS)方法预测蛋白质的活性位点,结合机器学习算法,对Google应用商店的评分进行类比分析。
摘要由CSDN通过智能技术生成

ds判断预测蛋白活性位点

In this article, I share with you my experience in analyzing and predicting the Google Apps ratings. This is one of the tests I had to solve in Data Science interviews. I have to point out that this is a personal way of solving the problem, it can help you draw your own reasoning.

在本文中,我与您分享了我在分析和预测Google Apps评分方面的经验。 这是我在数据科学采访中必须解决的测试之一。 我必须指出,这是解决问题的个人方法,可以帮助您得出自己的推理。

As with any other DS project, we start with downloading the data file from here.

与其他任何DS项目一样,我们从此处下载数据文件开始

You can check the code I used in this project by visualizing the Jupyter Notebook of this project on my Github from here.

您可以检查通过可视化项目的Jupyter笔记本上我Github上在这个项目中使用的代码,我在这里

Without further ado, Let’s go!

事不宜迟,我们开始吧!

数据入门 (Getting started with the data)

The first step is data preprocessing. We clean, play and transform all the elements and columns of the data based on their formats and types. As we can see, our data has the following format:

第一步是数据预处理。 我们根据其格式和类型来清理,播放和转换数据的所有元素和列。 如我们所见,我们的数据具有以下格式:

apps = pd.read_csv('GooglePlayApp-ELHOUD.csv')
apps.info()
Image for post

The data frame contains 13 different columns and 8281 rows. The column “Rating” represents the Y-vector of our model: what we try to predict. We visualize the different values of “Rating”:

数据帧包含13个不同的列和8281行。 “ Rating ”列代表模型的Y向量:我们试图预测的结果。 我们可视化“ Rating ”的不同值:

apps['Rating'].value_counts()

While visualizing the values of “Rating”, we notice that there is an unreasonable rating in our data (19.0). In general, the Apps rating is between 0 and 5 stars. We delete this value to avoid biasing our model. We can replace it with 1.9 if we think it was a typing mistake, but since we can’t be sure and we have no direct contact with the data owner, it is better to remove it.

在可视化“ Rating ”的值时,我们注意到数据中的评级不合理(19.0)。 通常,Apps评分在0到5星之间。 我们删除此值以避免对我们的模型产生偏见。 如果我们认为这是键入错误,可以将其替换为1.9,但是由于不能确定并且我们没有与数据所有者直接联系,因此最好将其删除。

After that, we check all the duplicate apps and remove them:

之后,我们检查所有重复的应用程序并将其删除:

print('Number of apps at the beginning:',
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值