Python爬取2万条相亲网站数据！看看中国单身男女都在挑什么！

最新推荐文章于 2023-02-03 23:46:17 发布

pythonlaodi

最新推荐文章于 2023-02-03 23:46:17 发布

阅读量2k

点赞数 2

分类专栏：爬虫文章标签：可视化 python 数据分析 java 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pythonlaodi/article/details/108535968

版权

本文介绍了如何使用Python爬虫从世纪佳缘网站抓取相亲用户信息，包括年龄、城市、学历等，进行了数据清洗，并在FineBI中进行可视化分析。结果显示，高学历单身者比例较小，离异者占比较大，男性倾向于选择年轻伴侣，而女性则相反。此外，一线城市单身人数较多，有房有车是普遍的择偶条件。

摘要由CSDN通过智能技术生成

想必昨天的七夕节，一定是有人欢喜有人忧的一天，朋友圈里的晒照惹恼了我的一个程序员朋友，在昨晚怒爬2万条相亲网站数据，做了一次相亲男女画像！

话不多说，我们今天就以“世纪佳缘”这个相亲网站为例子，爬取搜索页面当中所有的用户信息，包括“用户ID”、“年龄”、“城市”、“学历”、“属相”等内容，使用的工具是爬虫工具pycharm。

首先老规矩，爬虫之前我们先分析一些目标网页的构成，我们进入世纪佳缘的搜索页面，摁下F12打开开发者工具，找到网页选项，看一下网页的Request URL和请求方式、user-agent等基本信息：

请求方式是post，说明我们不用去源代码里找标签了，所有的数据都存放在网页的json文件当中，这倒是方便很多，我们直接通过链接直接获取API文件，不需要进行网页解析，点击HTR后点击“请求”就能看到表单数据了。

很显然，“sex”就是性别，“f”是“female”的缩写，“p”代表着页码，因为搜索页面一共有10页，所以我们需要构造一下完整的请求url：

最低0.47元/天解锁文章

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Python爬取2万条相亲网站数据！看看中国单身男女都在挑什么！

想必昨天的七夕节，一定是有人欢喜有人忧的一天，朋友圈里的晒照惹恼了我的一个程序员朋友，在昨晚怒爬2万条相亲网站数据，做了一次相亲男女画像！话不多说，我们今天就以“世纪佳缘”这个相亲网站为例子，爬取搜索页面当中所有的用户信息，包括“用户ID”、“年龄”、“城市”、“学历”、“属相”等内容，使用的工具是爬虫工具pycharm。首先老规矩，爬虫之前我们先分析一些目标网页的构成，我们进入世纪佳缘的搜索页面，摁下F12打开开发者工具，找到网页选项，看一下网页的Request URL和请求方式、user-a
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。