环境配置
1、安装Scarpy库
2、安装pypwin32库
创建项目
在pytharm的终端创建一个scrapy的项目
scrapy startproject tutorial
相应的目录下就有了刚刚创建的项目
创建爬虫
来到刚刚的项目中的spiders的目录下,继续在pycharm下的终端输入scrapy genspider qsbk "qiushibaike.com"
代码,创建一个爬虫,上面的spbk是爬虫名字,后面跟的是爬虫域名,只能在该域名下爬取内容
执行之后,spiders文件夹下会多出一个py文件
demo
在刚刚新增的文件中添加下面内容
# -*- coding: utf-8 -*-
import scrapy
class QsbkSpider(scrapy.Spider):
name = 'qsbk'
allowed_domains = ['qiushibaike.com']
start_urls = ['https://www.qiushibaike.com/text/page/1/']
def parse(self, response):
print("="*40)
print(type(response))
print("="*40)
执行
在pycharm的终端,将当前目录回到项目的根目录输入scrapy crawl qsbk
并执行,在输出结果中,能够发现下面的内容