他说:“只是单纯的想用Python收集一些素颜照,做机器学习使用”,“我信你个鬼!”

141 篇文章 504 订阅 ¥99.90 ¥299.90
本文介绍了如何使用Python爬取19楼相亲频道的女生头像,作为机器学习的数据集。通过解析库学习和XPath的运用,实现了批量抓取并保存图片。同时,文章探讨了反爬策略,如设置等待时间和处理固定的请求参数。最终,展示了抓取结果,并提供了完整代码下载链接。
摘要由CSDN通过智能技术生成

今天,他爬取了 上千张 相亲素颜照。跟我说?刷相亲平台,收集素颜照,训练机器模型。这也能信?
她们明明化妆了。

阅读本文你将收获

  1. 近万张素颜头像;
  2. lxml 解析库初识;
  3. XPath 语法初识;
  4. Cooike 反爬;
  5. 女朋友(没准是意外收获)

Python 采集 19 楼相亲女生头像

从本篇博客开始,你将进入爬虫 120 例的第二个小阶段,requests + lxml 实现爬虫。

requests 相信通过前面 10 个案例,你已经比较熟悉了,接下来我们在其基础上,新增一款爬虫解析库 lxml。该库主要用于 XMLHTML 的解析,而且解析效率非常高,使用它之后,你就可以摆脱编写正则表达式的烦恼了。

目标数据源分析

爬取目标网站

本次抓取目标是 19 楼女生相亲频道,该分类频道截止 7 月 1 日还在持续更新中。

https://www.19lou.com/r/1/19lnsxq.html

  • 297
    点赞
  • 97
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 128
    评论
评论 128
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦想橡皮擦

如有帮助,来瓶可乐

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值