python爬虫自学笔记分析解密_Python爬虫自学系列(七) -- 项目实战篇(一)

4212a43be59e3efa31e810954e90e757.png

前言

之所以标题不说是爬什么网,主要是怕大家看了标题以为是之前那篇的返稿。其实不是啊。

这次爬的是腾讯的暑期实习招聘。

上次爬完之后放那边也没去更新过,今天再上去看,发现人家已经改版了。

不知道为啥啊,就喜欢爬他们家的,还有爬CSDN的。

那,这次改版,数据是好爬了呢,还是难爬了呢?拭目以待啊(好爬我就不写了,难爬我就写不了)

流程

第一步,打开网站

这不废话嘛,不打开网站怎么分析嘛。

腾讯暑期实习

不知道是不是我网络不太行,打开这个网址,有时候可以,有时候就是白屏。

所以爬不下来不用担心是被封了IP,可能是真的卡,缓缓再来就好。

第二步,分析网站

进去之后,你随便点,你会发现点来点去就是那一个网址,开心吧。

我的第一反应就是网页渲染。很抱歉这个系列没有提到网页渲染以及解决方法,因为我也不会啊。。。

毕竟我是个学后端的。

当时心里拔凉拔凉的,当时我还是不死心,点开了网页源码:

d79aa40ec078a62233374641b4c909e8.png

好样儿的。

当我把这句拿去百度的时候:href="javascript:;",网上的回复清一色都是用自动化测试工具去弄吧(selenium之类)。

为什么心里会凉呢?因为我觉得,这些模块,应该是一个模块一个数据包吧!!!

给我看傻了都,四个大label,每个大label里面还有好几个小label,然后小label里面还有下拉框,我的天哪!!!

就在我绝望之际,我还是点开了它的数据包,我想,就让我最后看一眼吧,我的天哪。

好,这么一看,就一个大label一个包?这么多数据就一个包?好极。

死灰复燃了。

分析json包

在这方面,我不得不说,火狐还是有它的优势在里面的,看一下:技术类岗位数据包

72ff07091ed974df9cc83aa7cc18be88.png

这是火狐的。

跟网页对比一下,来看里面的那些元素分别是什么意思吧。

可以看到,所有的数据都在 JoinResultDtoList 里面,

(这里记得把转义字符自行转换)

title:岗位方向

rrCount:投递录用比

desc:岗位描述

request:岗位需求

workcity:据我分析啊,是这个样子的:

1、深圳总部

2、北京

3、上海

4、广州

5、成都

8、合肥

11、杭州

招聘城市:远程

其他三个包我都看过了,各位自取咯。

获取数据并简单处理

接下来,就是把数据拿下来处理了(简陋了点,我得去休息了):

import requests

import json

user_agent=[

# 请自己放上十几个头

'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0'

]

list_urls=[]

def geturl():

page = requests.get("https://join.qq.com/api/v1/jobDetails/getJobDetailsByPidAndTid?timestamp=1611742780882&pid=2&tid=2")

html = page.text

print(type(html))

jhtml = json.loads(html)

print(jhtml['data'])

print(type(jhtml))

for data in jhtml['data']:

print(data)

geturl()

各位尽请发挥。

整完之后记得存起来,可以参照我pandas的第二篇:pandas做数据存储

f2e2c4f7e21790bd6d9310787da5e6ff.png

0422b7e9459eb2cd2814dbf06c5208b6.png

原文链接:https://blog.csdn.net/qq_43762191/article/details/113269297

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值