Python数据分析:根据大众点评数据挑选店铺地址,3年Python开发工程师面试经验分享

本文分享了一位3年Python开发工程师的面试经验,结合大众点评数据,介绍了如何进行数据清洗、特征选择,计算性价比并构建模型。通过数据标准化处理和权重设计,最终确定甜品为最佳品类。还涉及了地理数据分析和数据可视化,提供了一份详尽的Python学习资料。
摘要由CSDN通过智能技术生成

使用data.dropna()对空值进行删除,再使用data.isnull().values.sum()进行检查,结果为0。

数据清洗后的数据共计96255个。根据①通过餐饮数据分析选出最具有竞争力的品类的要求,选择相关的变量,选择[‘类别’, ‘口味’, ‘环境’, ‘服务’, '人均消费’]5个变量。

建立[‘类别’, ‘口味’, ‘环境’, ‘服务’, '人均消费’]的DataFrame,并且筛选出所有评分和消费大于0的情况。因为根据实际情况,评分和消费为0的数据对此没有参考作用。

在这里插入图片描述

引入’性价比’这一列,性价比的计算方式将所有的评分相加再除以人均消费金额,计算出 分/元 为单位的数值,表示单位价格获得的分数 来表示其性价比。

在这里插入图片描述

这样获得了df如下,筛选出了需要的数据54886个。

df.info()

——————————————————————————

<class ‘pandas.core.frame.DataFrame’>

Int64Index: 54886 entries, 0 to 96395

Data columns (total 6 columns):

类别 54886 non-null object

口味 54886 non-null float64

环境 54886 non-null float64

服务 54886 non-null float64

人均消费 54886 non-null int64

性价比 54886 non-null float64

dtypes: float64(4), int64(1), object(1)

memory usage: 2.9+ MB

构建模型

得到数据集df,选择’类别’进行groupby分组再进行mean值等到每个类别的值。

在这里插入图片描述

使用箱型图进行异常值的排查。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值