了解scrapy

最新推荐文章于 2024-07-07 21:19:09 发布

Hello_Jandy

最新推荐文章于 2024-07-07 21:19:09 发布

阅读量614

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_42141853/article/details/80990806

版权

爬虫专栏收录该内容

17 篇文章 0 订阅

订阅专栏

安装：下载Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/

pip install twisted........

pip install scrapy

import  scrapy

'''
scrapy 有两种命令，其中project-only必须切换到项目文件夹下才能执行，
而gloable的命令则不需要，
如; startproject 创建项目
    genspider    创建爬虫程序

runspider ： 运行一个独立的python文件，不必创建项目

项目结构文件说明：
    scrapy.cfg  项目的主配置信息，用来部署scrapy时使用，爬虫相关的配置信息在settings.py文件中。
    items.py    设置数据存储模板，用于结构化数据，如：Django的Model
    pipelines    数据处理行为，如：一般结构化的数据持久化
    settings.py 配置文件，如：递归的层数、并发数，延迟下载等。强调:配置文件的选项必须大写否则视为无效，正确写法USER_AGENT='xxxx'
    spiders      爬虫目录，如：创建文件，编写爬虫规则，生成初始的Requests来爬取第一个URLS，并且标识一个回调函数
                第一个请求定义在start_requests()方法内默认从start_urls列表中获得url地址来生成Request请求，
                默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发
'''

class FirstSpider(scrapy.Spider):

    #爬虫名
    name = 'mySpider'
    #允许爬取的域名
    allowed_domains=['bbs.tianya.cn']
    #开始url
    start_url=['http://bbs.tianya.cn/post-140-393968-1.shtml']

    def start_requests(self):
        pass

    #回调方法
    def parse(self, response):
        pass