Python网络爬虫笔记（4）网络采集的常用工具

最新推荐文章于 2023-02-22 10:09:02 发布

l_ml_m_lm_m

最新推荐文章于 2023-02-22 10:09:02 发布

阅读量485

点赞数

分类专栏： Python爬虫文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l_ml_m_lm_m/article/details/79720412

版权

Python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

浏览器

找url【抓包】,找xhr，找head
主要功能：
定位网页元素【右键—>查看元素】
查看通讯记录【F12—>网络—>重新载入标签页】
查看请求headers【F12—>网络—>重新载入标签页—>双击—>消息头—>原始头】
定位XHR动态请求url【F12—>网络—>重新载入标签页—>XHR—>响应】
……

xhr:动态请求

requests库
http通讯库，常用函数：get post session
主要功能：

发送请求：get post put delete ……
填写form表单，比如发帖子或博客，用post函数
SSL，CA证书验证
身份认证
……
简单说：和服务器通信相关的所有功能
官方教程：
快速上手 — Requests 2.18.1 文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

HTML解析库－BeautifulSoup库和re库

简单的说：解析html,数据清洗
BeautifulSoup是用正则表达式实现的。
许多对正则表达式熟练的开发者直接使用re库解析HTML文档
BS更加简单，必要处可配合re使用
re还常常用于对采集的文本数据的清洗，如去除换行符引用标签等

Python爬虫利器二之Beautiful Soup的用法 | 静觅 https://cuiqingcai.com/1319.html
正则表达式 – 教程 | 菜鸟教程 http://www.runoob.com/regexp/regexp-tutorial.html

高级工具：selenium浏览器自动化测试框架和Phantomjs
requests的困难：无法运行css和JavaScript
动态网页DHTML　由html,css,javascript组成
html是主体，装载各种dom元素；css用来装饰dom元素；JavaScript控制dom元素。处理DHTML困难的两种方法：抓包和selenium

*selenium浏览器自动化测试框架*简单说：模拟人类用户，破解反爬虫策略

崔庆才 | 静觅 https://cuiqingcai.com/author/cqcre
selenium之玩转鼠标键盘操作（ActionChains） - CSDN博客 https://blog.csdn.net/huilan_same/article/details/52305176

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

l_ml_m_lm_m CSDN认证博客专家 CSDN认证企业博客

码龄7年

53: 原创

25万+: 周排名

169万+: 总排名

20万+: 访问

: 等级

1349: 积分

14: 粉丝

20: 获赞

16: 评论

82: 收藏

私信

关注

热门文章

分类专栏

最新评论

配置caffe时遇到的错误
Zhongdaoshanyue: 就是是在anaconda里还是在caffe里？
配置caffe时遇到的错误
Zhongdaoshanyue: 楼主请问一下makefile.config一般是在哪个文件夹里（我安装的不是caffe，但遇到了相似问题），谢谢！
imagenet2012 label
FEHEUIDSHUDUIS: 谢谢兄弟，找了半天了
faster-rcnn代码详解（3）
wxlearncoding: 请问博主，config修改了参数，如何重新编译和覆盖原始config参数？
CondaHTTPError: HTTP 000 CONNECTION FAILED for url
Zero-lei: 谢谢楼主，看到你说可能是代理服务器的问题之后，我直接把它关了，之后重新安装就可以了。非常感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。