2021某厂的数据分析面试题python

最新推荐文章于 2024-09-02 13:05:42 发布

柳小葱

最新推荐文章于 2024-09-02 13:05:42 发布

阅读量3.1k

点赞数 16

文章标签： python 数据分析

本文链接：https://blog.csdn.net/weixin_48077303/article/details/117602414

版权

今天来更新朋友面试某厂的数据分析题，供大家参考。

面试官给了一个python笔试题.py文件
内容如下：
在这里插入图片描述

这里写目录标题

Q1：读入数据

 # Q1: 读入数据，到一个dataframe命名为content，并且将其中的列名作为dataframe的column index
import pandas as pd
content=pd.DataFrame(raw_data,columns=["platform","order_num","comment","uv"])
content.info()

结果如下：
在这里插入图片描述

Q2：筛选数据

这里我要说一下，筛选数据最好用df.query()这个函数，效率高，容易理解

# Q2: 筛选所有order_num = '2nd' 且platform = 'news'
qstr1="order_num == \'2nd\'"
qstr2="platform == \'news\' & order_num == \'2nd\'"
print(content.query(qstr2))

结果如下：
在这里插入图片描述

Q3：筛选数据

#Q3:筛选content的第2-4行和第2列之后的数据
content.iloc[1:4,2:]

结果如下：
在这里插入图片描述

Q4：分组

# Q4: 对content进行分组计算，按照platform 和order_num 对comment 求和 并按照求和结果进行降序排列
data1=content.groupby(["platform","order_num"])["comment"].sum().sort_values(ascending=False)
data1

结果如下：
在这里插入图片描述

Q5：数据赋值

这道题大家的思想可能也是判断platform='news’和 comment >= 70，然后再and,这样写也行，但是可能会有类型错误，如不是bool类型之类的，博主的想法是求出满足表达式的行的索引，然后根据索引赋值即可

# Q5: 新生成一列变量为 rank，评价标准为，当platform='news'且 comment >= 70时 rank = 'good', 当platform='pcnews'且 comment >= 500时 rank = 'medium', 其他 rank = 'worse'
#全体赋值为worse
content["rank"]="worse"
#满足第一个条件表达式
qustr1="platform==\'news\' and comment >= 70"
list1=content.query(qustr1).index.tolist()
content.loc[list1,"rank"]="good"
#满足第二个条件的表达式
qustr2="platform==\'pcnews\' and comment >= 500"
list2=content.query(qustr2).index.tolist()
content.loc[list2,"rank"]="medium"
#展示赋值后的结果
print(content)