Python爬取58同城租房数据,完美解决字体加密

本文主要介绍了如何使用Python爬取58同城的租房数据,重点讲解了应对字体加密的方法。首先,通过分析58同城网站,发现数据获取相对简单,难点在于字体加密。接着,详细说明了如何获取请求链接中的加密字体,并将其转换保存。虽然字体编号每次请求都会变化,但这并不影响代码执行和结果获取。最后,作者提醒读者,该文仅供学习交流,禁止商业用途。
摘要由CSDN通过智能技术生成

前言

在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤
QQ群:623406465

58同城网站分析

58同城的数据爬取非常简单,唯一有点难的就是字体的加密,除此之外其他的数据用xpath即可获取。

想爬取不同地方的直接访问链接即可:

在这里插入图片描述
数据在链接中,直接请求获取即可。

在这里插入图片描述
在这里插入图片描述

字体加密破解

既然是字体加密那么就先把字体寻找出来,寻找简单,在开发者工具中的分类找到Font,然后搜索这个链接进行查找。

在这里插入图片描述
已经找到这个字体了,他是在请求页面的时候返回的,然后他还是个base64的,只需要转换一下在保存就可以了。

在这里插入图片描述

请求链接获取字体

import requests
from lxml import etree

def get_data():
    url = "https://bj.58.com/chuzu/?PGTID=0d200001-0000-11e9-58e6-a658f219b27c&ClickID=1"
    headers = {
        'authority': 'bj.58.com',
        'method': 'GET',
        'path': '/chuzu/?PGTID=0d200001-0000-11e9-58e6-a658f219b27c&ClickID=1',
        'scheme': 'https',
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9',
        'cache-control': 'max-age=0',
        '
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值