Python爬取2万条相亲网站数据!看看中国单身男女都在挑什么!

本文介绍了如何使用Python爬虫从世纪佳缘网站抓取相亲用户信息,包括年龄、城市、学历等,进行了数据清洗,并在FineBI中进行可视化分析。结果显示,高学历单身者比例较小,离异者占比较大,男性倾向于选择年轻伴侣,而女性则相反。此外,一线城市单身人数较多,有房有车是普遍的择偶条件。
摘要由CSDN通过智能技术生成

想必昨天的七夕节,一定是有人欢喜有人忧的一天,朋友圈里的晒照惹恼了我的一个程序员朋友,在昨晚怒爬2万条相亲网站数据,做了一次相亲男女画像!

话不多说,我们今天就以“世纪佳缘”这个相亲网站为例子,爬取搜索页面当中所有的用户信息,包括“用户ID”、“年龄”、“城市”、“学历”、“属相”等内容,使用的工具是爬虫工具pycharm。

首先老规矩,爬虫之前我们先分析一些目标网页的构成,我们进入世纪佳缘的搜索页面,摁下F12打开开发者工具,找到网页选项,看一下网页的Request URL和请求方式、user-agent等基本信息:

请求方式是post,说明我们不用去源代码里找标签了,所有的数据都存放在网页的json文件当中,这倒是方便很多,我们直接通过链接直接获取API文件,不需要进行网页解析,点击HTR后点击“请求”就能看到表单数据了。

很显然,“sex”就是性别,“f”是“female”的缩写,“p”代表着页码,因为搜索页面一共有10页,所以我们需要构造一下完整的请求url:

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值