前程无忧python爬虫

最新推荐文章于 2024-05-01 14:35:23 发布

RyanWong~

最新推荐文章于 2024-05-01 14:35:23 发布

阅读量4.3k

点赞数 4

分类专栏： python 实践文章标签：前程无忧python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hairclipper/article/details/103308057

版权

前程无忧python爬虫

实践要求做一个数据分析以及处理的实验，我负责的是爬取数据的这一块任务。做爬虫的话，python是比较好用的，于是学习了一小段时间，专门学着写了一个小爬虫。爬取的是一些静态网页上的内容。

环境

语言：python 3.8
工具：PyCharm 2019
操作系统：win10

前言

我主要学习的是C++，对于python语言并没有学习过，但是就爬虫这一块，我去了解的时候发现，并没有什么多大的障碍。
就我的了解，python做爬虫实际上也是使用封装好的模块做。所以掌握一些基本的语法即可。

准备

python下载
去官网上下载对应环境的版本安装即可。
python下载地址
编辑器ide（pycharm）下载
同样的可以去官网上下载安装，如果只是简单用的话，社区版本即可。
pycharm下载地址

实际上pycharm自带的有python解释器。这个具体在新建项目的时候可以选择对应想用的python解释器。
当然这样下来，所需要的模块是不存在的。
也可以去下载那种集成了所有开发所需要的开发包，模块和python解释器都弄好了的。

所需要用到的模块：

requests
lxml（主要是用其中的etree，xpath），或者是re（正则表达式）
csv（最后把爬取到的结果存入excel表格）

如果不是集成开发包的话，需要自己安装对应的模块，那么安装命令一般是：

pip install xxx

爬取前程无忧网页数据

由于我之前自己写过一个小型简单的服务器，加上我接触过web项目，所以对于前端页面数据的一些概念是有基础的。
在参考爬虫资料时，我印象最为深刻的就是将爬虫就说成是模仿浏览器的行为。
对于输入url，然后显示网页在网络中的过程可以参考计算机网络。

那么我们先导入需要的模块：

import requests
from lxml import etree
import csv

既然是模仿浏览器，那么我们需要一个网址是吧，实际上就是url。这个url代表的是我们要爬取哪个网页。

url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,{},2,1.html?'.format(job)

爬虫脱离不了那你想要爬取网页本身，开发过程中可以一边对着网页F12，一边撸码。
找到想要爬取的网页，在浏览器中找到url，可以分析出网页的一些特点，比如说，想要爬虫的岗位、页数在url中是哪个位置，如何变化，这些都是有规律的。

上面代码中job是一个变量，用于输入一个想要爬取的岗位。
有了url，主要用到的就是requests中的get方法。

response = requests.get(url)

这个方法返回到response，如果我们输出的话，会打印200，200是成功的状态码。
获取页面:response.text
当然ÿ

最低0.47元/天解锁文章

关注

4
点赞
踩
35

收藏

觉得还不错? 一键收藏
4
评论
前程无忧python爬虫

前程无忧python爬虫实践要求做一个数据分析以及处理的实验，我负责的是爬取数据的这一块任务。做爬虫的话，python是比较好用的，于是学习了一小段时间，专门学着写了一个小爬虫。爬取的是一些静态网页上的内容。环境语言：python 3.8工具：PyCharm 2019操作系统：win10前言我主要学习的是C++，对于python语言并没有学习过，但是就爬虫这一块，我去了解的时候发现...
复制链接

扫一扫

专栏目录

RyanWong~ CSDN认证博客专家 CSDN认证企业博客

码龄7年

2: 原创

59万+: 周排名

167万+: 总排名

5552: 访问

: 等级

88: 积分

3: 粉丝

5: 获赞

4: 评论

41: 收藏

私信

关注

热门文章

分类专栏

实践 2篇
python 1篇

最新评论

前程无忧python爬虫
小胡不爱说话: 我也经常遇到过这种问题，但是不知道怎么搞得随便改了一下代码就好了
前程无忧python爬虫
m0_58868669: 列表索引超出范围怎么解决
前程无忧python爬虫
click#Number15: URL中的城市如何解析
前程无忧python爬虫
Tisfy: 好文！，正如：紫泉宫殿锁烟霞，欲取芜城作帝家。

最新文章

qt + opencv320 + EasyPR的车牌识别环境搭建

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。