你都用 Python 来做什么？爬数据数据分析，例如招聘数据、粉丝数据等等

本文链接：https://blog.csdn.net/XIe_0928/article/details/113178730

主要是爬取数据，并把爬回来的数据进行分析和挖掘，做过的小项目主要有：

1.扒了扒蔡徐坤100万+微博转发中，假流量占了多少的比例

随机抓取蔡徐坤100万+转发的微博《再见，“任性的”千千…》的10万条转发数据，并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像。
在这里插入图片描述
发现102313条转发数据中，有95397条是由假粉丝转发的，占了总转发的93.24%，只有6916条是由真粉丝转发的，占6.76%。6916条数据中，除去重复转发的粉丝，真实粉丝数量只剩下3926个。也就是说，真实转发的粉丝数量，占总转发量的3.84%。
在这里插入图片描述
与之相比，吴青峰10006条转发数据中，只有很少比例的假粉丝量，绝大部分都是真粉丝转发的。在9658条真粉丝转发数据中，真粉丝量也高达9318，说明不存在粉丝打榜的情况。

另外还有一些有趣的发现：假粉丝的平均关注是3.44，平均粉丝数是1.04，没有简介，昵称基本上都是“中文+英文和数字”这个格式，很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字，头像都是蔡徐坤（说明很多都是定制粉啊）。

2.爬取了西瓜直播（今日头条旗下APP）各类型游戏的主播直播数据107.5万条，并分析直播平台和游戏主播行业是否真如我们想象般的暴利

使用多线程爬虫爬取了西瓜直播（今日头条旗下APP）各类型游戏的主播直播数据107.5万条(时间：2019年4月30日0时至5月7日0时7天，平均每隔5分钟获取一次各类型游戏所有主播直播数据)，并分析直播平台和游戏主播行业是否真如我们想象般的暴利，以及游戏主播的回报跟付出的努力是否成正比

在这里插入图片描述
全平台7天内出现的主播有4601人，其中有3266位主播具有打赏收入，有1335位主播是没有打赏收入的。在3266位有打赏收入的主播中，历史总打赏小于100元的有1143人，占总数的35%。历史总打赏小于1万元的有2491人，占总数的76%。历史总打赏大于10万元的有177人，占总数的5%。
在这里插入图片描述
那么努力和收获是成正比的吗？图表中的趋势告诉我们：是的。总收入一百元以内的直播，平均每日直播2.2小时，而总收入一百万到一千万的主播，平均每日直播5.7小时！

可能大家觉得这个时间不长，但是要知道玩游戏是一项需要全神贯注的游戏，主播要是走神了没玩好，人气就不在了，礼物也刷不上来。试想一下每日要全神贯注玩6个半小时的游戏，还要解说和互动，就知道辛苦程度如何了。
在这里插入图片描述
可以看到，节假日的观看人数要比非节假日高。每日观看人数从7点开始攀升，到12点达到小峰值（500万左右），再从下午的4点开始急剧攀升，下午6点的观众人数，是12点的3-4倍。说明观众习惯下午下班后打开APP观看直播。下午6点一直到晚上12点，都是直播的黄金时间。

在这里还是要推荐下我自己建的Python开发学习群:810735403，群里都是学Python开发的，如果你正在学习Python ，欢迎你加入，大家都是软件开发党，不定期分享干货（只有Python软件开发相关的），包括我自己整理的一份2020最新的Python进阶资料和高级开发教程，欢迎进阶中和进想深入Python的小伙伴！

3.爬取丁香人才网的医生招聘数据，分析儿科医生的生存处境

看了《人间世》第二季第8集《儿科医生：坚守，还是逃离？》之后，爬取了丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据，并且分析儿科医生的真实处境。

在这里插入图片描述

相比于公立医院招聘中更看重高学历人才，民营医院招聘时更加看重医生的工作经验。所以公立医院中由于学历导致发展受限的有经验的医生，很多都跳槽去民营医院了。

儿科岗位平均招聘持续时间是73天，将近2个半月的时间，位居榜首！看来儿科招人难，确实是千真万确的，而外科是最好招人的。
在这里插入图片描述
儿科医生在所有类型的单位里，公立医院开出的工资是最低的。连诊所和药房的工资都比公立医院高。

相同工资水平下，民营医院对学历不限和大专的要求比公立医院多，而公立医院对本科、硕士、博士的要求比民营医院多。也就是说，在民营医院，不需要那么高的学历，就可以拿到跟公立医院同价位的待遇。

4.爬取北上广深链家网全部租房数据，并给出租房建议

爬取北上广深链家网全部租房房源数据，并且得出租金分布、租房考虑因素等建议。

把北上广深四个城市的房源都以小点的形式投射在地图上，先来看看北京的：
在这里插入图片描述
上海的：

广州的：

深圳的：

租房房源分布透露出来的信息其实不多，我们更关心的是各区域的价格。为此我计算了各房源每平米每月的租金，并绘制了热力地图，先来看北京的。

上海市：

广州市：
在这里插入图片描述
深圳市：

在这里还是要推荐下我自己建的Python开发学习群:810735403，群里都是学Python开发的，如果你正在学习Python ，欢迎你加入，大家都是软件开发党，不定期分享干货（只有Python软件开发相关的），包括我自己整理的一份2020最新的Python进阶资料和高级开发教程，欢迎进阶中和进想深入Python的小伙伴！

5.模拟登录微博手机端爬取海量表情包(其实代码同样也可以爬小姐姐的图片)

爬了一千多张点赞量最高、目前最火的表情包，让自己的表情包库再也不捉襟见肘。
在这里插入图片描述
另外还用这个爬虫爬了很多女装大佬的美图，哈哈哈。

以及很多小姐姐的美图。

在这里还是要推荐下我自己建的Python开发学习群:810735403，群里都是学Python开发的，如果你正在学习Python ，欢迎你加入，大家都是软件开发党，不定期分享干货（只有Python软件开发相关的），包括我自己整理的一份2020最新的Python进阶资料和高级开发教程，欢迎进阶中和进想深入Python的小伙伴！