前言
在这里我就不再一一介绍每个步骤的具体操作了,因为在爬取老版今日头条数据的时候都已经讲的非常清楚了,所以在这里我只会在重点上讲述这个是这么实现的,如果想要看具体步骤请先去看我今日头条的文章内容,里面有非常详细的介绍以及是怎么找到加密js代码和api接口。
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤
QQ群:623406465
58同城网站分析
58同城的数据爬取非常简单,唯一有点难的就是字体的加密,除此之外其他的数据用xpath
即可获取。
想爬取不同地方的直接访问链接即可:
数据在链接中,直接请求获取即可。
字体加密破解
既然是字体加密那么就先把字体寻找出来,寻找简单,在开发者工具中的分类找到Font
,然后搜索这个链接进行查找。
已经找到这个字体了,他是在请求页面的时候返回的,然后他还是个base64的,只需要转换一下在保存就可以了。
请求链接获取字体
import requests
from lxml import etree
def get_data():
url = "https://bj.58.com/chuzu/?PGTID=0d200001-0000-11e9-58e6-a658f219b27c&ClickID=1"
headers = {
'authority': 'bj.58.com',
'method': 'GET',
'path': '/chuzu/?PGTID=0d200001-0000-11e9-58e6-a658f219b27c&ClickID=1',
'scheme': 'https',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'zh-CN,zh;q=0.9',
'cache-control': 'max-age=0',
'