2024年最全谁才是天朝最厉害的演员?让Python来为你揭晓!(2),2024年最新互联网公司招聘面试的形式

最后

Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样,是不能只看书不做题的,直接看步骤和答案会让人误以为自己全都掌握了,但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码,教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

然后,拆分每部电影的电影题材类型并进行转置,再汇总每个演员出演过的电影题材,排序后取前三个类型,作为演员的拿手题材。

拆分电影题材

data = data.join(data[“电影题材”].str.split(“,”,expand = True).stack().reset_index(level = 1,drop = True).rename(“题材”))

取每位演员最擅长的电影题材TOP3

data_type_actor = data[[‘电影id’,‘电影名称’,‘演员’,‘题材’]].drop_duplicates().groupby([‘演员’, ‘题材’]).agg({‘电影id’: ‘count’}).reset_index().sort_values([‘演员’,‘电影id’],ascending=False)

data_type_actor = data_type_actor.groupby([‘演员’]).head(3)

data_type_actor = data_type_actor.groupby([‘演员’])[‘题材’].apply(list).reset_index()

data_type_actor[‘题材’] = data_type_actor[‘题材’].apply(lambda x: ‘,’.join(str(i) for i in list(set(x)) if str(i) != ‘nan’))

data_type_actor.rename(columns={‘题材’: ‘演员_拿手题材’}, inplace=True)

data = pd.merge(data,data_type_actor,how=‘left’,on=[‘演员’])

四、数据分析

目前只有“演员总票房”和“影片平均评分”两个字段,可用作描述一个演员综合能力,所以需要衍生一些字段:

电影数量:统计演员主演过的影片数量;

大于10亿票房影片数量:汇总单部影片票房大于10亿的数量;

大于10亿票房影片计分:按照不同票房区间赋予分值,再汇总;

由于部分演员只出演过一部影片,属于单样本,若不剔除,会影响各项指标的数值分布。

##Python学习群 592539176

actor = result[[‘演员’,‘总票房’,‘用户评分’]].drop_duplicates()

衍生字段:平均票房、大于10亿票房影片、大于10亿票房影片计分

actor[‘用户评分’] = actor.apply(lambda x:0 if x[‘用户评分’]==‘暂无评分’ else x[‘用户评分’],axis=1)

actor[‘大于10亿票房影片数量’] = actor.apply(lambda x:1 if x[‘总票房’]>100000 else 0,axis=1)

按照票房赋予分值

def goal(x):

if x[‘总票房’]<=100000:

division_goal = 0

elif x[‘总票房’]<=200000:

division_goal = 1

elif x[‘总票房’] <= 300000:

division_goal = 2

elif x[‘总票房’] <= 400000:

division_goal = 3

elif x[‘总票房’] <= 500000:

division_goal = 4

else:

division_goal = 5

return division_goal

actor[‘大于10亿票房影片计分’] = actor.apply(goal,axis=1)

actor[‘电影数量’] = 1

actor[‘用户评分’] = pd.to_numeric(actor[‘用户评分’])

actor[‘大于10亿票房影片数量’] = pd.to_numeric(actor[‘大于10亿票房影片数量’])

actor[‘大于10亿票房影片计分’] = pd.to_numeric(actor[‘大于10亿票房影片计分’])

汇总

actor2 = actor.groupby([‘演员’]).agg({‘总票房’: ‘sum’,

‘大于10亿票房影片数量’: ‘sum’,

‘大于10亿票房影片计分’: ‘sum’,

‘电影数量’: ‘count’,

‘用户评分’:‘mean’,}).reset_index()

筛选影片数量大于1的行——只有一部影片的演员设为单样本,会影响标准化的结果

actor2 = actor2[actor2[‘电影数量’]>1].reset_index(drop=True)

最后,由于数值字段之间的量纲不同,需要进行标准化处理后才可以进行比较。“演员总票房”的高低是衡量一个演员能力的重要因素,这里笔者将“大于10亿票房影片数量”和“大于10亿票房影片计分”也作为两点重要因素,而“影片平均评分”和“电影数量”作为次要因素,最终标准化处理后的计算公式:

总分=演员总票房+大于10亿票房影片数量+大于10亿票房影片计分+0.5_影片平均评分+0.5_电影数量

这里笔者曾用K-means聚类算法将演员划分为四个集群,通过查看集群的分布情况后发现,划分结果与上述公式计算后的总分排名情况十分相似(比如,总分1-20名划分成集群1,21-50名划分成集群2),所以取消了用聚类算法的方式划分演员档次。

#Python学习群 592539176

#免费领取资料

复制一份副本

actor_copy = actor2.copy()

标准化处理

scaler = StandardScaler()

numeric_features = actor2.dtypes[actor2.dtypes != ‘object’].index

scaler.fit(actor2[numeric_features])

scaled = scaler.transform(actor2[numeric_features])

for i, col in enumerate(numeric_features):

actor2[col] = scaled[:, i]

划分演员档次:权重求和,根据分值排序

result = actor2.apply(lambda x: x[‘总票房’]+x[‘大于10亿票房影片数量’]+x[‘大于10亿票房影片计分’]+0.5x[‘电影数量’]+0.5x[‘用户评分’],axis=1)

# 划分演员档次——方法2:采用聚类算法,自动分成4个组

actor_model = actor2[[‘总票房’, ‘大于10亿票房影片数量’, ‘大于10亿票房影片计分’,‘电影数量’,‘用户评分’]].values

y_pred = KMeans(n_clusters=4, random_state=9).fit_predict(actor_model)

result2 = pd.Series(y_pred)

合并两种结果

model_actor_reuslt = pd.concat([actor_copy, result], axis=1)

model_actor_reuslt.rename(columns={0: ‘总分’},inplace=True)

model_actor_reuslt = model_actor_reuslt.sort_values(‘总分’,ascending=False).reset_index(drop=True)

五、数据描述

由于工作上经常使用BI工具tableau进行图表制作,因此下列的图表均用tableau绘制。其实pyecharts生成的图表也十分美观,为了方便这里就不用这个库画图了,有兴趣的小伙伴也可以了解下这个库。

先从整体上对电影的概况进行描述分析,才能更好地理解演员各项指标高低的优劣程度。首先,2011年至今,国内上映的影片总共是2129部,其中10亿票房以上的影片只有39部,占了总体的0.02%。

电影总数

目前国内影片最高票房已经到50-60亿之间,只有一部。40-50亿只有两部,大部分10亿以上的票房都集中在10-20亿之间。

电影票房区间

整体上,剧情、喜剧和爱情类型的电影题材拍得最多,而灾难类型的电影最少。从热门和冷门的电影题材中,很好地诠释了“报喜不报忧”这句成语,毕竟每个走进电影院的人都希望能轻松愉快地度过这两个小时。所以10亿以上票房的影片中,喜剧类型的电影题材反而排在了第一位。

电影题材

从电影上映时间轴中可以看出,整体上,17年之前上映的影片逐年增加,但在17年之后有所下降。而10亿以上票房的影片每年都在增加,侧面说明近几年国内电影影片质量有所上升。

电影上映时间轴

最后,将全部图表放到同一个仪表板中,可以很方便地看到10亿以上票房的影片分布情况,以及具体的影片名称。其中,2012年的《人在囧途之泰囧》是国内第一部10亿+票房影片,2015年的《捉妖记》是首部20亿+票房影片,2016年的《美人鱼》是首部30亿+票影片,2017年的《战狼2》是首部50亿+票房影片,而2019年的《流浪地球》和《哪吒之魔童降世》是唯一两部40亿+票房影片。从这个时间轴可以看出,自2015年起,每年最高票房都比前年多出10亿以上。

电影概况

根据上述的计算公式得到总分TOP10的名单,前三名分别是黄渤、吴京和沈腾。这也难怪笔者的同学会对吴京出演的影片信心那么高。

演员总分排名

汇总每个演员主演的电影票房后,得到总票房TOP10的名单,目前国内百亿票房均是男演员,分别是吴京、黄渤、杜江和沈腾。其中吴京已经是150亿票房冠军,而让笔者比较意想不到的是杜江也上了百亿榜,虽然他参演的几部热门影片,如《红海行动》、《我和我的祖国》和《中国机长》都不是第一主演,但这几部都是10亿+票房影片,是不是能说明他存在某些旺票房特质呢?

演员总票房

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 7
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值