Python网络爬虫笔记(4)网络采集的常用工具

浏览器

  • 找url【抓包】,找xhr,找head
    主要功能:

  • 定位网页元素【右键—>查看元素】

  • 查看通讯记录【F12—>网络—>重新载入标签页】
  • 查看请求headers【F12—>网络—>重新载入标签页—>双击—>消息头—>原始头】
  • 定位XHR动态请求url【F12—>网络—>重新载入标签页—>XHR—>响应 】
  • ……

xhr:动态请求

requests库
http通讯库,常用函数:get post session
主要功能:

  • 发送请求:get post put delete ……
  • 填写form表单,比如发帖子或博客,用post函数
  • SSL,CA证书验证
  • 身份认证
  • ……
    简单说:和服务器通信相关的所有功能
    官方教程:
    快速上手 — Requests 2.18.1 文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

    HTML解析库-BeautifulSoup库和re库

    简单的说:解析html,数据清洗

  • BeautifulSoup是用正则表达式实现的。

  • 许多对正则表达式熟练的开发者直接使用re库解析HTML文档
  • BS更加简单,必要处可配合re使用
  • re还常常用于对采集的文本数据的清洗,如去除换行符引用标签等

Python爬虫利器二之Beautiful Soup的用法 | 静觅 https://cuiqingcai.com/1319.html
正则表达式 – 教程 | 菜鸟教程 http://www.runoob.com/regexp/regexp-tutorial.html

高级工具:selenium浏览器自动化测试框架和Phantomjs
requests的困难:无法运行css和JavaScript
动态网页DHTML 由html,css,javascript组成
html是主体,装载各种dom元素;css用来装饰dom元素;JavaScript控制dom元素。处理DHTML困难的两种方法:抓包和selenium


*selenium浏览器自动化测试框架*
简单说:模拟人类用户,破解反爬虫策略

崔庆才 | 静觅 https://cuiqingcai.com/author/cqcre
selenium之 玩转鼠标键盘操作(ActionChains) - CSDN博客 https://blog.csdn.net/huilan_same/article/details/52305176

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值