前程无忧python爬虫

前程无忧python爬虫

实践要求做一个数据分析以及处理的实验,我负责的是爬取数据的这一块任务。做爬虫的话,python是比较好用的,于是学习了一小段时间,专门学着写了一个小爬虫。爬取的是一些静态网页上的内容。

环境

语言:python 3.8
工具:PyCharm 2019
操作系统:win10

前言

我主要学习的是C++,对于python语言并没有学习过,但是就爬虫这一块,我去了解的时候发现,并没有什么多大的障碍。
就我的了解,python做爬虫实际上也是使用封装好的模块做。所以掌握一些基本的语法即可。

准备

  1. python下载
    去官网上下载对应环境的版本安装即可。
    python下载地址
  2. 编辑器ide(pycharm)下载
    同样的可以去官网上下载安装,如果只是简单用的话,社区版本即可。
    pycharm下载地址

实际上pycharm自带的有python解释器。这个具体在新建项目的时候可以选择对应想用的python解释器
当然这样下来,所需要的模块是不存在的。
也可以去下载那种集成了所有开发所需要的开发包,模块和python解释器都弄好了的。

所需要用到的模块:

  • requests
  • lxml(主要是用其中的etree,xpath),或者是re(正则表达式)
  • csv(最后把爬取到的结果存入excel表格)

如果不是集成开发包的话,需要自己安装对应的模块,那么安装命令一般是:

pip install xxx

爬取前程无忧网页数据

由于我之前自己写过一个小型简单的服务器,加上我接触过web项目,所以对于前端页面数据的一些概念是有基础的。
在参考爬虫资料时,我印象最为深刻的就是将爬虫就说成是模仿浏览器的行为
对于输入url,然后显示网页在网络中的过程可以参考计算机网络。

那么我们先导入需要的模块:

import requests
from lxml import etree
import csv

既然是模仿浏览器,那么我们需要一个网址是吧,实际上就是url。这个url代表的是我们要爬取哪个网页。

url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,{},2,1.html?'.format(job)

爬虫脱离不了那你想要爬取网页本身,开发过程中可以一边对着网页F12,一边撸码。
找到想要爬取的网页,在浏览器中找到url,可以分析出网页的一些特点,比如说,想要爬虫的岗位、页数在url中是哪个位置,如何变化,这些都是有规律的。

上面代码中job是一个变量,用于输入一个想要爬取的岗位。
有了url,主要用到的就是requests中的get方法。

response = requests.get(url)

这个方法返回到response,如果我们输出的话,会打印200,200是成功的状态码。
获取页面:response.text
当然ÿ

  • 4
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值