你都用 Python 来做什么?学会Python能做什么?(二)

学会Python更多是爬取数据,并把爬回来的数据进行分析和挖掘!

继续举例:

 五、爬取丁香人才网的医生招聘数据,分析儿科医生的生存处境

看了《人间世》第二季第8集《儿科医生:坚守,还是逃离?》之后,爬取了丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据,并且分析儿科医生的真实处境。

 相比于公立医院招聘中更看重高学历人才,民营医院招聘时更加看重医生的工作经验。所以公立医院中由于学历导致发展受限的有经验的医生,很多都跳槽去民营医院了。

儿科岗位平均招聘持续时间是73天,将近2个半月的时间,位居榜首!看来儿科招人难,确实是千真万确的,而外科是最好招人的。

儿科医生在所有类型的单位里,公立医院开出的工资是最低的。连诊所和药房的工资都比公立医院高。

 

相同工资水平下,民营医院对学历不限和大专的要求比公立医院多,而公立医院对本科、硕士、博士的要求比民营医院多。

也就是说,在民营医院,不需要那么高的学历,就可以拿到跟公立医院同价位的待遇。

爬虫和数据分析代码戳:Paediatrician,具体的数据分析文章戳:《儿科医生的眼泪,全被数据看见了》

六、爬取北上广深链家网全部租房数据,并给出租房建议

爬取北上广深链家网全部租房房源数据,并且得出租金分布、租房考虑因素等建议。

把北上广深四个城市的房源都以小点的形式投射在地图上,先来看看北京的:

上海的:

广州的: 

 

深圳的:

租房房源分布透露出来的信息其实不多,我们更关心的是各区域的价格。为此我计算了各房源每平米每月的租金,并绘制了热力地图。

先来看北京的。

热力地图还有互动版本,可以随意放大缩小定位到自己感兴趣的区域:​​​​​​北京市每平米租金热力图 

上海市

广州市

深圳市

爬虫和数据分析代码戳:BSGS_Rent,具体的数据分析文章戳:《北上广深租房图鉴》

七、全国367个城市春节期间的空气质量指数数据爬取和分析

爬了全国367个城市从除夕到初七的空气质量数据,数据有68155条,并分析烟花爆竹对空气质量的影响,以及城市禁放烟花爆竹是否有效。

可以看到,PM2.5和PM10在除夕晚上六点之后开始飙升

 

全国大部分城市空气质量指数飙升为原来的1-5倍,有城市甚至飙升到20-25倍!

有些管控严格的城市,虽然除夕当晚管控地很好,可是时间一过就开始反弹飙升。

爬虫和数据分析代码戳:Fireworks_and_Pm2.5,具体的数据分析文章戳:《六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?》

八、爬取电影《流浪地球》的猫眼评论和评分,并分析该电影出现低分的原因

爬了102580条《流浪地球》的猫眼评论,分析观众打分的时间规律,并对观众的评论做了词云图,分析大家打高分和低分的原因。


 

晚上21点、22点的时候(也就是观影高峰期)最容易出现低评分。

对高分的评论画了词云图,高分的观众觉得:

  1. 这部电影很不错、很好看、很震撼、很感人,会大力推荐;
  2. 观众乐于把这部片跟好莱坞的科幻片进行比较,并且认为其特效完美、场面宏大,是中国里程碑式的科幻大片,相比以前有很大进步;
  3. 吴京、刘慈欣、导演多次被提及,说明观众对演员、剧本和导演都有很大的认可度,认为演员演技优秀、剧本扎实、导演良心。

对低分的评论也画了词云图,打低分的观众觉得:

  1. 这部影片虽然特效很好,但是剧情东拉西扯、强行煽情、年轻演员演技捉急、没有逻辑,是烂片;
  2. 吴京的英雄主义和强行的爱国情怀让这部片看起来像太空版的《战狼》,很尴尬;
  3. 女主的演讲是本片最大的败笔,年轻演员撑不起这样的巨作。

爬虫和数据分析代码戳:TheWanderingEarth,具体的数据分析文章戳:《十万条评论告诉你,给《流浪地球》评1星的都是什么心态?》

九、分析美国从1920年以来,每个年代的人的流行英文名

总数据有1924665条,通过分析每个年代的流行英文名,为需要取英文名的童鞋提供一些建议。

2010年以来最受欢迎的男生英文名 

 

2010年以来最受欢迎的女生英文名 

 

注:横轴是该名字人数在每个年代所占总数的百分比 

 

几乎发音相同的名字的书写变体

十、分析了70多万场绝地求生的比赛数据,总结出独家吃鸡攻略

分析了总共20多G、70多万场的绝地求生比赛数据,总结出各种地图哪里跳的人最多、近战最佳武器、狙击最佳武器等,程序员嘛,靠技术吃鸡也很重要。

海岛地图中,跳机场跟学校是死得最快的。

沙漠地图中,跳Pecado、San Martin、Power Grid是死得最快的。

开车对吃鸡很重要!!!

满配的M416是海岛和沙漠地图中最好用的枪。

每场比赛场均有1.47个人自己被自己蠢倒(也就是自毙),自毙的方式中,手榴弹高居榜首!哈哈哈。

数据分析代码戳:PUBG-juediqiusheng-data_analysis,具体的数据分析文章戳:《【20G】Kaggle数据集强势分析“绝地求生”,攻略吃鸡!》

课程以目标为导向,设计几大原创案例由浅入深覆盖Python爬虫所需知识点,让你在实战练习中查漏补缺,掌握基础知识,让你告别漫无目的的独自摸索,跟着老师清晰课程框架进行系统性学习,用项目培养爬虫思维,让学习可以举一反三。


如果你也想用Python获取数据,进行有趣的数据分析;扫描下方CSDN官方二维码,回复【python资料】【python面试】【简历】有我准备的python学习路线和python面试资料和简历模板,将会是你的好帮手!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值