用Python爬虫爬了世纪佳缘后发现了一个秘密

今天在知乎上看到一个关于【世纪佳缘找对象靠谱吗?】的讨论,其中关注的人有 1903,被浏览了 1940753 次,355 个回答中大多数都是不靠谱。用 Python 爬取世纪佳缘的数据是否能证明它的不靠谱?

数据抓取

在 PC 端打开世纪佳缘网站,搜索 20 到 30 岁、不限地区的女朋友

翻了几页找到一个 search_v2.php 的链接,它的返回值是一个不规则的 json 串,其中包含了昵称、性别、是否婚配、匹配条件等等

点开 Hearders 拉到最下面,在它的参数中 sex 是性别、stc 是年龄、p 是分页、listStyle 是有照片

通过 url + 参数的 get 方式,抓取了 10000 页的数据总共 240116

需要安装的模块有 openpyxl

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值