Python爬虫1之招聘网爬虫

本文介绍了作者初次尝试编写Python爬虫,选择51招聘网作为目标,目的是为了方便未来找工作。文章讲解了使用requests库、beautifulsoup4库和os库进行网页抓取和内容处理的过程,包括获取网页内容、解析HTML、筛选招聘信息以及保存到TXT文件的步骤。还介绍了如何通过自定义函数获取招聘岗位和详细信息URL,并将内容写入文件。
摘要由CSDN通过智能技术生成

准备工作

下载并安装配置Python编译环境:PyCharm(当然,也可用IDLE编译)。
导入所需要的第三方库:requests库、beautifulsoup4库和os库。
谷歌浏览器,当然,别的浏览器也可以,只不过我觉得谷歌比较方便,快捷键F12能快速的查看网页源码。

简略爬取51招聘网

第一次自己写爬虫,一时也没想好要爬取个什么东西,所以就简略地爬取一下51招聘网,毕竟不久之后我也就要面临找工作的困扰了,这个爬虫要是弄得好的话,到时候能省去我不少时间。与此同时呢,也尝试着自己写个博客,练习一下,万一以后打算发表个什么呢。

第三方函数库的介绍

在这次爬虫的过程中,我用到的库很简单,主要就是requests库、beautifulsoup4库和os库。

其中requests库是一个简洁且简单的处理HTTP请求的第三方函数库,其最大的优点就是程序编写过程更加的接近于正常的URL访问过程,所以用起来比较简单易懂。具体使用方法请参照:
requests的基本方法函数
在这里插入图片描述
在这里插入图片描述
这里使用requests.get()方法来获取到了getHtmlText函数所传入的网址中的内容,然后再将编码格式转换为utf-8,最后再将所获取到的网页返回。

beautifulsoup4库是一个解析和处理HTML和XML的第三方库,毕竟我们爬取网页,并不能是简单的爬取一下网上内容,更重要的是对我们所爬取到的内容进行加工处理,然后筛选出对我们有用的信息,这样才能简化我们的工作,方便我们查找出想要的信息,所以这个库还是很重要的。具体使用方法请参照:
py

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值