网易招聘的实例:
一、安装Scrapy
lxml
pyOpenSSL
Twisted
PyWin32
安装完上述库之后,就可以安装Scrapy了,命令如下:pip install Scrapy
二、创建项目
scrapy startproject wangyi
三、建模
打开items.py,为抓取的信息建模
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
import scrapy
class WangyiItem(scrapy.Item):
# define the fields for your item here like:
name = scrapy.Field() #名称
link = scrapy.Field() #详情
depart = scrapy.Field() #部门
category = scrapy.Field() #职位
type = scrapy.Field() #工作性质
address = scrapy.Field() #工作地址
num = scrapy.Field() #招聘人数
date = scrapy.Field() #发布时间
四、创建爬虫
打开项目\wangyi,输入
scrapy genspider job 163.com
五、编写爬虫文件job.py
'''
enumerate在字典上是枚举、列举的意思
enumerate参数为可遍历/可迭代的对象(如列表、字符串)
enumerate多用于在for循环中得到计数,利用它可以同时获得索引和值,即需要index和value值的时候可以使用enumerate
enumerate()返回的是一个enumerate对象
'''
import scrapy
from wangyi.items import WangyiItem
class JobSpider(scrapy.Spider):
name = 'job'
#2.检查域名
allowed_domains = ['163.com']
#1,修改原始url