一、开发环境
OS:Windows 7 64bit旗舰版Python:2.7.10
Scrapy:1.0.3
MySQL:5.6.21
Sublime Text2:2.0.2
具体的开发环境配置这里就不介绍了,如需了解,欢迎与我交流。
二、目标
通过在前程无忧的职位搜索中输入职位关键词获取相应的职位信息,现在我们通过Scrapy爬虫来实现这个功能,自动帮我们获取相关的职位信息,并保存成.json格式和保存到MySQL数据库。
三、实现步骤
Scrapy是一个比较流行的Python爬虫框架,Scrapy爬虫的基本实现流程如下:
1.通过scrapy startproject spiderproject 来创建一个新的爬虫工程,spiderproject是我们自己命名的爬虫工程。比如本例子,我们创建一个工程scrapy startproject qcwy,qcwy即为我们的工程名。
2.定义我们要解析具体数据的Item结构,在items.py文件中。
3.在pipelines.py中实现数据存储的功能,可以在这里实现我们抓取的数据保存在.json文件中,或者MySQL中,或者SQLite中,或者MongoDB中,或者其他你要保存的格式或者数据库中。