python scrapy爬虫笔记01

【python scrapy 爬虫】
    1 环境配置

    win10; python3.7;
    2 爬虫project

【第三方包scrapy,re】   

    【 scrapy 相关】
    【 pip安装 】
          pip install Scrapy;

    【scrapy 一些相关依赖】
        pywin32
            python 的windows扩展包
        Twisted
            是用Python实现的基于事件驱动的网络引擎框架
        lxml
            lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式
        w3lib
            是scrapy的依赖包;实现了一下与web相关的功能
        pyopenssl

【python链接数据库】

  第三方:MySQLdb



【 新建项目(scrapy startproject) 】
    构建scrapy的文件结构:
        * 命令:scrapy startproject mySpider; - cmd(终端)中 cd 到此文件夹(空)下
        * 文件结构:
                mySpider/
                    scrapy.cfg - 项目的配置文件
                    mySpider/ -  项目的Python模块,将会从这里引用代码
                        __init__.py
                        items.py -  项目的目标文件:items.py里存放的是我们要爬取数据的字段信息
                        middlewares.py  - 自己定义的中间件。
                        pipelines.py - 项目的管道文件:pipeline主要是对spiders中爬虫的返回的数据的处理,这里我们可以让写入到数据库,也可以让写入到文件等等
                        settings.py -  项目的设置文件
                       *spiders/ - 存储爬虫代码目录  - 主要编写代码的文件夹
                            __init__.py
                            ...

 

转载于:https://www.cnblogs.com/floakss/p/11525936.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值