单身福利专场, Python采集某相亲网站美女数据

本文介绍如何使用Python爬虫采集某相亲网站的美女数据,涉及环境配置、所需模块、基本思路和代码实现。通过发送请求、解析网页源代码,获取并保存女子的基本资料和照片数据。
摘要由CSDN通过智能技术生成

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

现在,广大年轻人到了一定年纪,一定会引来父母的念叨

不是让相亲就是让结婚的,与其父母念叨,不如自己找一个

到时候问起来,就说再接触呢~~

今天我们就来用python看看相亲网都有哪些优质妹子吧~


环境开发:

  • Python 3.8

  • Pycharm


模块使用:

  • import parsel --> pip install parsel

  • import requests --> pip install requests

  • import csv

  • import re


如果安装python第三方模块:
  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

  2. 在pycharm中点击Terminal(终端) 输入安装命令


如何配置pycharm里面的python解释器?

  1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)

  2. 点击齿轮, 选择add

  3. 添加python安装路径


pycharm如何安装插件?

  1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)

  2. 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese

  3. 选择相应的插件点击 install(安装) 即可

  4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效


基本思路流程:

一. 数据来源分析:
  1. 明确需求:

    采集数据是什么 —> 资料数据 <静态网页>

    都是在网页源代码里面

    只要获取到所有 ID 就可以 采集所有数据信息

    就有所有 小姐姐 详情页url ID

二. 代码实现步骤:

发送请求 获取数据 解析数据 保存数据

获取所有详情页ID:

  1. 发送请求, 模拟浏览器对于url地址发送请求

  2. 获取数据, 获取服务器返回响应数据

    开发者工具 —> response

  3. 解析数据, 提取我们想要数据内容

    详情页ID —> UID

获取详情页资料信息

  1. 发送请求, 模拟浏览器对于url地址发送请求

    资料详情页url地址

  2. 获取数据, 获取服务器返回响应数据

    网页源代码

  3. 解析数据, 提取我们想要数据内容

    基本资料信息

  4. 保存数据, 把数据内容保存本地

    • 基本资料信息保存csv表格

    • 照片数据, 保存本地文件夹

代码展示

导入模块

# 导入数据请求模块
import requests
# 导入数据解析模块
import parsel
# 导入csv
import csv
# 导入正则
import re
f = open('data.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['昵称',
                                           '性别',
                                           '年龄',
                                           '身高',
                                           '体重',
                                           '出生日期',
                                           '生肖',
                                           '星座',
                                           '籍贯',
                                           '所在地',
                                           '学历',
                                           '婚姻状况',
                                           '职业',
                                           '年
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值