Python爬虫1之招聘网爬虫

最新推荐文章于 2023-09-07 23:57:53 发布

猿的开始

最新推荐文章于 2023-09-07 23:57:53 发布

阅读量648

点赞数

分类专栏：修炼第一步文章标签： Python

本文链接：https://blog.csdn.net/weixin_38005728/article/details/85258299

版权

本文介绍了作者初次尝试编写Python爬虫，选择51招聘网作为目标，目的是为了方便未来找工作。文章讲解了使用requests库、beautifulsoup4库和os库进行网页抓取和内容处理的过程，包括获取网页内容、解析HTML、筛选招聘信息以及保存到TXT文件的步骤。还介绍了如何通过自定义函数获取招聘岗位和详细信息URL，并将内容写入文件。

摘要由CSDN通过智能技术生成

准备工作

下载并安装配置Python编译环境：PyCharm（当然，也可用IDLE编译）。
导入所需要的第三方库：requests库、beautifulsoup4库和os库。
谷歌浏览器，当然，别的浏览器也可以，只不过我觉得谷歌比较方便，快捷键F12能快速的查看网页源码。

简略爬取51招聘网

第一次自己写爬虫，一时也没想好要爬取个什么东西，所以就简略地爬取一下51招聘网，毕竟不久之后我也就要面临找工作的困扰了，这个爬虫要是弄得好的话，到时候能省去我不少时间。与此同时呢，也尝试着自己写个博客，练习一下，万一以后打算发表个什么呢。

第三方函数库的介绍

在这次爬虫的过程中，我用到的库很简单，主要就是requests库、beautifulsoup4库和os库。

其中requests库是一个简洁且简单的处理HTTP请求的第三方函数库，其最大的优点就是程序编写过程更加的接近于正常的URL访问过程，所以用起来比较简单易懂。具体使用方法请参照：
requests的基本方法函数
在这里插入图片描述

这里使用requests.get()方法来获取到了getHtmlText函数所传入的网址中的内容，然后再将编码格式转换为utf-8，最后再将所获取到的网页返回。