Python爬虫1之招聘网爬虫
准备工作
下载并安装配置Python编译环境:PyCharm(当然,也可用IDLE编译)。
导入所需要的第三方库:requests库、beautifulsoup4库和os库。
谷歌浏览器,当然,别的浏览器也可以,只不过我觉得谷歌比较方便,快捷键F12能快速的查看网页源码。
简略爬取51招聘网
第一次自己写爬虫,一时也没想好要爬取个什么东西,所以就简略地爬取一下51招聘网,毕竟不久之后我也就要面临找工作的困扰了,这个爬虫要是弄得好的话,到时候能省去我不少时间。与此同时呢,也尝试着自己写个博客,练习一下,万一以后打算发表个什么呢。
第三方函数库的介绍
在这次爬虫的过程中,我用到的库很简单,主要就是requests库、beautifulsoup4库和os库。
其中requests库是一个简洁且简单的处理HTTP请求的第三方函数库,其最大的优点就是程序编写过程更加的接近于正常的URL访问过程,所以用起来比较简单易懂。具体使用方法请参照:
requests的基本方法函数
这里使用requests.get()方法来获取到了getHtmlText函数所传入的网址中的内容,然后再将编码格式转换为utf-8,最后再将所获取到的网页返回。
beautifulsoup4库是一个解析和处理HTML和XML的第三方库,毕竟我们爬取网页,并不能是简单的爬取一下网上内容,更重要的是对我们所爬取到的内容进行加工处理,然后筛选出对我们有用的信息,这样才能简化我们的工作,方便我们查找出想要的信息,所以这个库还是很重要的。具体使用方法请参照:
py