创建一个Scrapy项目
我是在PyCharm的命令行执行,创建项目文件之前可以自定义文件地址
创建scrapy项目文件夹(目录)
scrapy startproject 文件夹名称
建立项目文件时需要在scrapy项目文件夹下建立,文件夹名称:就是创建项目文件夹的名称
cd 文件夹名称
建立项目文件
scrapy genspider 运行文件名 爬取的网页地址
这样就创建成功了
显示结果图:
Scrapy架构的使用
创建一个启动文件
在项目目录下创建一个主函数mian.py下的代码:
说明:启动文件里的wangyi是我自己建立的scrapy项目文件,就相当于从mian.py运行等价于命令行调用执行scrapy项目文件
from scrapy.cmdline import execute
execute('scrapy crawl wangyi'.split())
spiders》在项目文件.py里写爬取代码
# -*- coding: utf-8 -*-
import scrapy
class WangyiSpider(scrapy.Spider):
name = 'wangyi'
allowed_domains = ['news.163.com']
start_urls = ['http://news.163.com/']
def parse(self, response):
pass
配置文件
serring.py需要改的代码:
#ROBOTSTXT_OBEY = True #原本
#需要改成
ROBOTSTXT_OBEY = Fale
请求头需要去配置文件打开
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
'User-Agent':'',
}
保存函数Scrapy封装好的
如果需要保存,请去配置文件夹打开它
#ITEM_PIPELINES = {
# 'xiangm1.pipelines.Xiangm1Pipeline': 300,
#}