大数据告诉你,世纪佳缘都是谁在相亲(python爬虫&分析,附全部代码)

公众号: 数据小斑马,关注即可获得价值1000元的数据分析学习资料

数据分析学习目录:

一、Excel系列——四大常用函数及十大高级图表
二、SQL系列——性能优化/多表关联/窗口分析函数等
三、统计学系列——概率论/置信区间/相关/抽样等
四、Pandas系列——数据读取/清洗/规整/分析实战等
五、Python做图系列——箱型图/散点图/回归图/热力图等
六、业务积累系列——流水预测/精细化运营/排序算法等
七、Kmeans系列——原理/评价指标/RFM实战等
八、决策树系列——算法原理/调参/python实现/项目实战
九、贝叶斯系列——算法原理/3种模型/文本分类实战
十、神经网络系列——BP算法原理/最小二乘法/项目实战

520已经过去,你是否收到了心爱的TA精心准备的礼物呢?或者你的TA还迟迟未出现?

小编一直认为相亲也是一个不错的交友方式,毕竟工作后,生活圈变得很窄,接触异性的机会实在太少。认识-了解-相爱-走入婚姻,就是一个漏斗转化的过程,第一个口子开得越大,就越有可能发现你的TA。

因此本文通过对世界佳缘网进行一次数据爬取分析,想更多地了解目前在网上相亲的人的特征,也希望能够通过此分析,折射出婚恋现状。

-------先放结论,感兴趣者可详细阅读---------

1、TA们来自哪里?

大部分来自繁华的一二线城市,TOP4是北京、深圳、成都和广州

2、他们自身条件如何?

年龄:男性的年龄有两个小高峰,一个是在30-40岁,另一个是在60-70岁,女性则集中在30-50岁。
身高:男性的身高集中在170-180cm,女性在160-170cm
学历:男女性都是本科占比最高,其次是大专。男性在本科以上学历人数要多于女性,女性在本科以下人数多于男性
财产:男性有房占比44%,女性有房占比38%,男女性有房有车的占比均达到31%,经济状况较好

3、他们婚姻状况如何?

男女性都是离异最多,女性未婚要多于男性,丧偶低于男性

4、他们对另一半的诉求?

年龄:希望对方年龄与自己较为匹配,差距不要过大。女性普通希望男性大自己3-5岁,男性则普通希望女性小自己5-10岁
身高:男性对身高要求集中在160-170cm,女性要求集中在173-183cm。整体而言,女性对身高要求要更严苛一些。
情感:品性善良、为人简单、待人真诚、性格合适


本篇以讲解可视化技巧为主,具体的分析过程如下(文末有超大福利赠送):

  1. request + post爬虫
  2. 数据清洗
  3. 数据规整
  4. 数据分析及可视化
公众号: 数据小斑马,关注即可获得价值1000元的数据分析学习资料

Part 1 利用request&post爬取世纪佳缘数据

一、爬虫逻辑

打开世纪佳缘网PC端,要寻找包含用户信息的页面,在点击了众多按钮之后,终于搜索中发现了玄机
在这里插入图片描述
在这里插入图片描述

通过页面右击-检查-Netword-XHR,刷新后拉到页面底部,点击下一页,发现加载了新的json文件,点击Response,复制里面的内容到文本编辑器,就是我们想要的内容,说明我们可以通过链接直接获取API文件,而不用进行网页解析
在这里插入图片描述
在这里插入图片描述

点开Header,发现两个文件的URL是一样的,让我误以为只要多次爬取这个链接就可以获得不同的数据,但结果发现每次爬都是一样的。

在这里插入图片描述

后来拉到页面底部,研究了POST参数发现:其中P就是页面,sex是性别,其余参数都是可以不管的

在这里插入图片描述

所以通过上传POST参数 + URL,成功爬取了男女数据各10万条(花费了4h~~)

# 一、数据获取(request + post)
all_data = []
for i in ['m'
  • 13
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值