scrapy简单使用方法

步骤:

1、在编译器(我用的Pycharm)里新建文件夹,名称随意

2、从终端(Anaconda Prompt)中进入所创建的文件夹(Anaconda Prompt中切换C盘和D盘方法见上篇博客)

3、在该文件夹中创建scrapy框架,即执行命令:

scrapy startproject Name

其中,Name是自己命名的项目名 

4、在编译器中更改该文件夹中新生成的settings文件:

     第22行,把 ROBOTSTXT_OBEY=True  改为  False(这行代码表示是否遵循爬虫协议,如果是Ture的可能有些内容无法爬取)

     第67到69行代码解注释,并把300改为1(这是优先级设置)

5、在Name文件夹中的spider文件夹下进行爬虫操作,因此在Anaconda Prompt中更改当前路径,进入到spider文件夹

6、创建爬虫文件,即在Anaconda Prompt中执行命令:

scrapy genspider baidu_spider baidu.com

其中,baidu_spider为新建的python文件名称,可以随意更改,但不能与项目名相同,后面的baidu.com是准备爬取的网站的url

7、在编译器中打开新建的baidu_spider文件,之后所有的爬取操作都由这个文件控制(主要由parse函数控制)。

     补全baidu_spider.py中的url,更改parse中的内容(具体看需要,可以直接print(response.body)输出网页源码或者其他任意操作都可)

8、开始爬取,即在Anaconda Prompt中执行代码:

scrapy crawl baidu_spider

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值