爬虫框架 Scrapy 教程详解

一、 下载scrapy

windows:

方法一: 下载Anacoda, 在Anacoda中下载scrapy

方法二: 直接pip install scrapy;期间部分依赖的包可能会报错,此时需要我们手动去网上下载对应包的whl,pip install之后,再重新pip install scrapy

linux:

一般会自动安装相关依赖的包

sudo pip install scrapy

tips: 以下所有代码以ubuntu18.04系统为准

 二、创建scrapy项目,初始化一个爬虫

# 此处ALiHR为项目目录名
***@ubuntu:~/Desktop/Python/MyScrapy$ scrapy startproject Tencent
New Scrapy project 'ALiHR', using template directory '/home/***/.local/lib/python3.6/site-packages/scrapy/templates/project', created in: /home/***/Desktop/Python/MyScrapy/ALiHR

# 以下两句代码提示我们,可以通过下面的操作,初始化一个爬虫模板
# example 代表爬虫文件及爬虫的名字
# example.com 数据类型为列表,允许爬虫后续爬取的域名;不在此域名列表之内的url请求会被略过
You can start your first spider with:
    cd Tencent
    scrapy genspider example example.com

创建项目完成后, 我们按照终端的提示信息,创建爬虫文件

在这里,以爬取阿里的招聘信息为例,进行以下所有操作

***@ubuntu:~/Desktop/Python/MyScrapy$ cd Tencent
***@ubuntu:~/Desktop/Python/MyScrapy/ALiHR$ scrapy genspider tencent_post hr.tencent.com
Created spider 'alihr' using template 'basic' in module:
  Tencen
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值