了解scrapy

安装:下载Twisted           https://www.lfd.uci.edu/~gohlke/pythonlibs/

        pip install twisted........

        pip install  scrapy

 

import  scrapy

'''
scrapy 有两种命令,其中project-only必须切换到项目文件夹下才能执行,
而gloable的命令则不需要,
如; startproject 创建项目
    genspider    创建爬虫程序

runspider : 运行一个独立的python文件,不必创建项目

项目结构文件说明:
    scrapy.cfg  项目的主配置信息,用来部署scrapy时使用,爬虫相关的配置信息在settings.py文件中。
    items.py    设置数据存储模板,用于结构化数据,如:Django的Model
    pipelines    数据处理行为,如:一般结构化的数据持久化
    settings.py 配置文件,如:递归的层数、并发数,延迟下载等。强调:配置文件的选项必须大写否则视为无效,正确写法USER_AGENT='xxxx'
    spiders      爬虫目录,如:创建文件,编写爬虫规则,生成初始的Requests来爬取第一个URLS,并且标识一个回调函数
                第一个请求定义在start_requests()方法内默认从start_urls列表中获得url地址来生成Request请求,
                默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发
'''

class FirstSpider(scrapy.Spider):

    #爬虫名
    name = 'mySpider'
    #允许爬取的域名
    allowed_domains=['bbs.tianya.cn']
    #开始url
    start_url=['http://bbs.tianya.cn/post-140-393968-1.shtml']

    def start_requests(self):
        pass

    #回调方法
    def parse(self, response):
        pass

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值