一、 下载scrapy
windows:
方法一: 下载Anacoda, 在Anacoda中下载scrapy
方法二: 直接pip install scrapy;期间部分依赖的包可能会报错,此时需要我们手动去网上下载对应包的whl,pip install之后,再重新pip install scrapy
linux:
一般会自动安装相关依赖的包
sudo pip install scrapy
tips: 以下所有代码以ubuntu18.04系统为准
二、创建scrapy项目,初始化一个爬虫
# 此处ALiHR为项目目录名
***@ubuntu:~/Desktop/Python/MyScrapy$ scrapy startproject Tencent
New Scrapy project 'ALiHR', using template directory '/home/***/.local/lib/python3.6/site-packages/scrapy/templates/project', created in: /home/***/Desktop/Python/MyScrapy/ALiHR
# 以下两句代码提示我们,可以通过下面的操作,初始化一个爬虫模板
# example 代表爬虫文件及爬虫的名字
# example.com 数据类型为列表,允许爬虫后续爬取的域名;不在此域名列表之内的url请求会被略过
You can start your first spider with:
cd Tencent
scrapy genspider example example.com
创建项目完成后, 我们按照终端的提示信息,创建爬虫文件
在这里,以爬取阿里的招聘信息为例,进行以下所有操作
***@ubuntu:~/Desktop/Python/MyScrapy$ cd Tencent
***@ubuntu:~/Desktop/Python/MyScrapy/ALiHR$ scrapy genspider tencent_post hr.tencent.com
Created spider 'alihr' using template 'basic' in module:
Tencen