python3 爬虫_基于Scrapy框架的Python3就业信息Jobspiders爬虫智联招聘拉勾网

最新推荐文章于 2021-09-29 17:02:00 发布

weixin_39769187

最新推荐文章于 2021-09-29 17:02:00 发布

阅读量194

点赞数

文章标签： python3 爬虫 python3爬虫

基于Scrapy框架的Python3就业信息Jobspiders爬虫

Items.py : 定义爬取的数据
pipelines.py : 管道文件，异步存储爬取的数据
spiders文件夹 : 爬虫程序
settings.py : Srapy设定，请参考官方文档
scrapy spider
爬取三大知名网站,使用三种技术手段
第一种直接从网页中获取数据，采用的是scrapy的基础爬虫模块，爬的是51job
第二种采用扒接口,从接口中获取数据，爬的是智联招聘
第三种采用的是整站的爬取,爬的是拉钩网
获取想要的数据并将数据存入mysql数据库中，方便以后的就业趋势分析

完整项目源码下载地址：文章末尾。

实现功能：

从三大知名网站上爬取就业信息，爬取发布工作的日期，薪资，城市，岗位有那些福利，要求，分类等等，并将爬到的数据存到mysql数据库中。

使用教程：

运行前需要安装的环境

Python3 Ubantu16.04自带，sudo apt-get install python3.5
mysql ： sudo apt-get install mysql-server
安装虚拟环境和虚拟环境的wrapper

sudo apt-get install python-pip python-dev build-essentialsudo pip install --upgrade pipsudo pip install --upgrade virtualenvsudo pip install virtualenvwrapper

配置virtualenvwrapper的工作空间
cd ~
mkdir .virtualenvs
sudo find / -name virtualenvwrapper.sh
vim ~/.zshrc 注意vim自己当前所用的shell，$SHELL查看，用的是bash就vim ~/.bashrc,末行加上

export WORKON_HOME=$HOME/.virtualenvssource /usr/local/bin/virtualenvwrapper.sh

注意替换自己find到的virtualenvwrapper.sh位置
其次就是安装一些模块，提供三种

最简单的方法 pip install -r requirements.txt
第2种方式如果安装了virtualenv和virtualenvwrapper就直接运行以下命令安装

mkvirtualenv --python=/usr/bin/python3 py3scrapyworkon py3scrapy安装好scrapy框架： pip install scrapy - 安装时遇到一个错误twisted/test/raiser.c:4:20: fatal error: Python.h: No such file or directory，解决办法：先安装 **python-dev，python3-dev**，再安装 - 可以使用豆瓣源加速安装 pip install -i https://pypi.douban.com/simple scrapy pip install fake-useragent sudo apt-get install libmysqlclient-dev pip install mysqlclient -i https://pypi.douban.com/simple 其余的在pycharm中alt enter安装

如果没有安装虚拟环境可以在pycharm中进行安装，alt+enter选择，如果没有正确的模块，就在setting中的project中的解释器Interpreter，再点击+号在里面搜索
2019-3-10更新发现一个问题环境问题，就是现在的Scrapy版本最新的1.6的，但是一点六的移除了一些组件导致安装的时候会报一个 "ImportError: No module named 'scrapy.contrib' "，所以自己去github上搜索scrapy通过源码编译安装1.5.1

运行项目