浏览器
找url【抓包】,找xhr,找head
主要功能:定位网页元素【右键—>查看元素】
- 查看通讯记录【F12—>网络—>重新载入标签页】
- 查看请求headers【F12—>网络—>重新载入标签页—>双击—>消息头—>原始头】
- 定位XHR动态请求url【F12—>网络—>重新载入标签页—>XHR—>响应 】
- ……
xhr:动态请求
requests库
http通讯库,常用函数:get post session
主要功能:
- 发送请求:get post put delete ……
- 填写form表单,比如发帖子或博客,用post函数
- SSL,CA证书验证
- 身份认证
……
简单说:和服务器通信相关的所有功能
官方教程:
快速上手 — Requests 2.18.1 文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlHTML解析库-BeautifulSoup库和re库
简单的说:解析html,数据清洗
BeautifulSoup是用正则表达式实现的。
- 许多对正则表达式熟练的开发者直接使用re库解析HTML文档
- BS更加简单,必要处可配合re使用
- re还常常用于对采集的文本数据的清洗,如去除换行符引用标签等
Python爬虫利器二之Beautiful Soup的用法 | 静觅 https://cuiqingcai.com/1319.html
正则表达式 – 教程 | 菜鸟教程 http://www.runoob.com/regexp/regexp-tutorial.html
高级工具:selenium浏览器自动化测试框架和Phantomjs
requests的困难:无法运行css和JavaScript
动态网页DHTML 由html,css,javascript组成
html是主体,装载各种dom元素;css用来装饰dom元素;JavaScript控制dom元素。处理DHTML困难的两种方法:抓包和selenium
简单说:模拟人类用户,破解反爬虫策略
*selenium浏览器自动化测试框架*
崔庆才 | 静觅 https://cuiqingcai.com/author/cqcre
selenium之 玩转鼠标键盘操作(ActionChains) - CSDN博客 https://blog.csdn.net/huilan_same/article/details/52305176