爬虫

爬虫

  1. 爬虫的构成

    1. 下载器:downloader
    2. 解析器:parser
    3. 调度器:dispatcher
      • 线程池
      • 协程池
  2. 怎样开始一个爬虫

    1. 确定抓取目标
    2. 页面分析
    3. 流程规划
    4. 存储规划
  3. 页面解析

    1. css selector
    2. xpath
    3. json
    4. regexp
  4. 任务调度

    1. 多线程
    2. 多进程
    3. RPC
    4. Queue
  5. 分布式爬虫

  6. 常遇到的问题

    1. JS 页面
      • Phantomjs
      • 常规页面无需使用
    2. 反爬虫策略
      1. ip:
        • 抓取代理 IP 库
        • 代理分为匿名代理和透明代理
        • socks5 代理协议
        • requests.get(url,
          proxies={‘http’: ‘socks5://127.0.0.1:1080’,
          ‘https’: ‘socks5://127.0.0.1:1080’}
          )
      2. cookie
        • phantomjs等 清空当前 cookie
      3. 验证码
        • 主要依赖前两部
      4. UserAgent
        • 伪造
  7. 常用库介绍

  8. 手机搜狐页面测试

    1. 递归下载手机搜狐的所有链接
    2. 相同链接只访问一次
    3. 只访问域名是 m.sohu.com 链接
    4. 并发执行
  9. 垃圾处理 (GC)

    • 引用计数 + 1
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值