scrapy安装及python大纲

 

 
 

在安装scrapy之前有一些依赖需要安装,否则可能会安装失败,scrapy的选择器依赖于lxml,还有Twisted网络引擎,以下是windows安装:

Scrapy的安装:
1. scrapy需要安装第三方库文件,lxml和Twisted
2. 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
3.下载好文件之后,在DOS命令下pip install 文件的位置(lxlm)
  安装完成就可以安装:pip  install  scrapy
  还需要安装 win32(启动蜘蛛的时候会提示安装,根据python版本来的我                32位)pip install pypiwin32

 

1. 初始化scrapy项目

我们可以使用命令行初始化一个项目,(注意创建的路径就是你在命令行下的根目录)

初始化完成后会产生以下文件

    scrapy.cfg:          项目的配置文件

    tutorial/:              该项目的python模块在这里添加代码

    items.py:             项目中的item文件

    pipelines.py:       项目中的pipelines文件.

    settings.py:         项目全局设置文件.

    spiders/              爬虫模块目录

我们可以在dos下执行以下两条命令:

1,Scrapy runspider 要执行的模块名.py -o 要存储的名称.json&.csv&.xml

 这个命令是把爬取的内容存储到一个固定文件里,并输入在控制台中

2,scrapy crawl 蜘蛛名

python: tuple list set dict range str 分片 [::] 推导 函数:def 函数名称(参数): 实现函数体 参数种类: 必须参数 默认参数 关键参数 可变参数:tuple *args dict **kwargs 建议:默认参数一定要在必须参数之后定义,可变参数一定要定义在最后 函数种类: 外部函数 内部函数 匿名函数 lambda 装饰函数@ 函数 总是要返回的 如果没有return None总是被返回 面向对象: 对象:已存在可被使用的实例 万物皆对象 模块 函数 变量 类 方法 都是对象 class:描述其他实例信息的对象 方法:用来定义其他实例行为的对象 与函数的区别:函数可独立定义和调用 方法不能独立定义也不能独立调用 staticmethod classmedthod 属性:定义其他实例特征的对象 stu=Student() stu.jump=lambda x: print("你跳了{o}米".format(x) stu.jump(1.2) 常用模块: re xml.... time socket threading random pickle os sys re os sys xml pickle熟练掌握 pdk --> python sdk 第三方:scrapy pandas numpy plot? scrapy:爬虫框架 特点工业化重量级 pyspider urllib xpath:通过path风格的表达式来解析xml html e:/大数据/a
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值