爬虫框架 Scrapy 教程详解

最新推荐文章于 2024-05-20 08:33:36 发布

清濯缨

最新推荐文章于 2024-05-20 08:33:36 发布

阅读量1k

点赞数

分类专栏： python 爬虫框架文章标签： python scrapy 爬虫框架教程详解

本文链接：https://blog.csdn.net/baidu_28289725/article/details/81536900

版权

一、下载scrapy

windows：

方法一：下载Anacoda，在Anacoda中下载scrapy

方法二：直接pip install scrapy；期间部分依赖的包可能会报错，此时需要我们手动去网上下载对应包的whl，pip install之后，再重新pip install scrapy

linux：

一般会自动安装相关依赖的包

sudo pip install scrapy

tips：以下所有代码以ubuntu18.04系统为准

二、创建scrapy项目，初始化一个爬虫

# 此处ALiHR为项目目录名
***@ubuntu:~/Desktop/Python/MyScrapy$ scrapy startproject Tencent
New Scrapy project 'ALiHR', using template directory '/home/***/.local/lib/python3.6/site-packages/scrapy/templates/project', created in: /home/***/Desktop/Python/MyScrapy/ALiHR

# 以下两句代码提示我们，可以通过下面的操作，初始化一个爬虫模板
# example 代表爬虫文件及爬虫的名字
# example.com 数据类型为列表，允许爬虫后续爬取的域名；不在此域名列表之内的url请求会被略过
You can start your first spider with:
    cd Tencent
    scrapy genspider example example.com

创建项目完成后，我们按照终端的提示信息，创建爬虫文件

在这里，以爬取阿里的招聘信息为例，进行以下所有操作

***@ubuntu:~/Desktop/Python/MyScrapy$ cd Tencent
***@ubuntu:~/Desktop/Python/MyScrapy/ALiHR$ scrapy genspider tencent_post hr.tencent.com
Created spider 'alihr' using template 'basic' in module:
  Tencen

最低0.47元/天解锁文章

清濯缨

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
爬虫框架 Scrapy 教程详解

一、下载scrapywindows：方法一：下载Anacoda，在Anacoda中下载scrapy方法二：直接pip install scrapy；期间部分依赖的包可能会报错，此时需要我们手动去网上下载对应包的whl，pip install之后，再重新pip install scrapylinux：一般会自动安装相关依赖的包sudo pip install scr...
复制链接

扫一扫