Python爬虫某招聘网站的岗位信息

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者:阿尔法游戏

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

故事又要从一个盆友说起

昨晚有个盆友 问我 爬虫学的怎么样了?

正当我不明所以之际,盆友的微信语音通话接了进来

友:“看你在学python,爬虫写的怎么样了呀,我想抓一下某招聘网站的数据,能帮我整一个吗,不行的话我也去看看”

我:“哦哦,你不是技术嘛,自己来嘛

友:“我不是没怎么接触过嘛”

我:“行,刚好我也学习下,周末有时间我帮你看下”

简单介绍下这个朋友吧,游戏圈某技术大拿,真大拿的那种!!


故事聊完了,咱们开工吧

1、前期准备

因为是爬虫,所以咱们需要用到如下几个库

  • requests

  • fake_useragent

  • json

  • pandas

Requests 的介绍是这样的: 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用

反正就是你用来获取网页数据需要用到的,本次咱们只需要用到get方法:

res=request.get(url)构造一个向服务器请求资源的url对象, 这个对象是Request库内部生成的, 这时候的res返回的是一个包含服务器资源的Response对象,包含从服务器返回的所有的相关资源。

fake_useragent 直译就是 假身份,作用和直译基本一样,是个表里不一的“人”

UserAgent是识别浏览器的一串字符串,相当于浏览器的身份证,在利用爬虫爬取网站数据时,频繁更换UserAgent可以避免触发相应的反爬机制。fake-useragent对频繁更换UserAgent提供了很好的支持,可谓防反扒利器。

json 就是上期我们本来打算介绍但是换了一个库实现的 用于处理json数据,可以将已编码的 JSON 字符串解码为 Python 对象

pandas 是我们的老朋友了,因为常和excel打交道,对表格的钟爱,所以pandas在这里主要作用只是将抓取的数据转化为dataframe型后导出成excel表

导入需要用到的库

import requests
from fake_useragent import UserAgent
import json
import pandas as pd
import time

2、任务分析

其实这步应该在 第1步 前期准备 之前,但是文档写到了这里,咱也不想回去了。

<
  • 5
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值