python-django-spider

20210830

推荐崔庆才 Python3 网络爬虫开发实战教程

JD、PDD、TB目前有两个关键问题:

  • IP受限 通过找靠谱的IP代理个人觉得问题不大
  • 登录 贼TM恶心 各种操作逆向解析用户信息和加密的流程

20201027

  • python基础
  • django
  • mysql
  • w3c

假定你已经完成了上述课程的学习,或者说已经有了一定的爬虫经验

爬虫

关于爬虫的介绍,推荐一篇文章,里面对于爬虫的介绍很清晰
python 爬虫架构主要由五个部分组成,分别是

  • 调度器
    例:服务器
  • URL管理器
    例:某东的商品详情
  • 网页下载器
    例:requests
  • 网页解析器
    例:bs4
  • 应用程序(爬取的有价值数据)
    例:mysql

  • 网站防爬
    频繁调用有被封的风险
  1. 限制调用次数
  2. 使用代理IP(最好是高可用的独享池)
  3. 模仿浏览器调用
  • 网页解析
    bs4可以解析html内的内容,但js就爱莫能助了
    所以
    python正则就显得尤为重要了
  • 多任务处理
    单线程的情况下,龟速的效率能把你耗死,此时多任务处理可以很好的帮助提高效率。但多线程和高频次是相对的。
  • 异常处理
    try catch finally
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值