网络爬虫学习前置知识

Scrapy爬虫的使用
步骤

  1. 创建一个工程和spider模版
  2. 编写spider
  3. 编写item pipeline模版
  4. 进行优化策略的配置
    Scrapy爬虫的数据类型:
  5. Request
    包含6个属性和方法
    .url Request对应的请求URL地址
    .method 对应的请求方法,‘GET’ ‘POST’等
    .headers 字典类型风格的请求头
    .body 请求内容主题,字符串类型
    .meta 用户添加的扩展信息,在Scrapy内部模块间传递信息使用
    .copy() 复制该请求
  6. Response
    .url Response 对应的URL地址
    .status HTTP状态码,默认是200
    .headers Response 对应的头部信息
    .body Response 对应的内部信息,字符串类型
    .flag 一组标记
    .request 产生Response 类型对应的Request对象
    .copy() 复制该响应
  7. Item
    是从HTML页面提取的信息内容
    由Spider生成,由Item Pipeline 处理
    类字典类型
    提取网络相关信息后,将生成键值对

提取信息的方法

  1. Beautiful Soup
  2. Lxml
  3. re
  4. XPath Selector
  5. css selector
    使用格式:
.css (‘a::attr (href)’). extract() (‘标签名称::attr(标签属性)’ r = request.get(url) 构建向服务器请求资源的Request对象 返回一个包含服务器的Response对象,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值