python_爬虫

定时、定量、制定目标的数据搜集程序。

技术库

网络请求

  • urllib
  • requests(三方)/ urllib3
  • selenium(UI自动测试、动态js渲染)
  • appium(手机App的爬虫或UI测试)

urllib

在这里插入图片描述

requests

基于urllib和urllib3封装的便捷使用的网络请求库
在这里插入图片描述

数据解析

  • re正则
  • xpath
  • bs4
  • json

数据存储

  • pymysql
  • mongodb
  • elasticsearch

多任务库

  • threading(多线程)、queue(线程队列)
  • asynio(协程)、gevent/eventlet(三方)

爬虫框架

  • scrapy
  • scrapy-redis(分布式多机爬虫)

反爬策略

  • UA(User-Agent)策略
  • 登录限制(Cookie)策略
  • 请求频次(IP代理)策略
  • 验证码(图片-云打码,文字或物件图片选择、滑块)
  • 动态js(Selenium/Splash/api接口)策略

爬虫与服务端的交互

伪造浏览器(User-Agent指定请求头),向服务器发起请求,接收响应数据,根据数据类型解析存储。
在这里插入图片描述
WSGI (web Servive Gateway interface web服务网关接口 基于socket)
WebKit (web客服端实现的框架)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值