Python3爬虫笔记
文章平均质量分 95
甲寅Emore
只因我们一无所有,所以我们有无限可能!
展开
-
Python3爬虫——用Xpath提取网页信息
本文概述了Python3利用Xpath获得网页信息并返回的方法,内容有Xpath的梗概和安装Xpath常用规则使用Xpath接入HTML文本从内存中读取从文件中读取查找节点所有节点指定节点属性多值匹配多属性匹配选择顺序查找子孙节点查找父节点获得属性和文本节点轴选择原创 2023-02-04 18:59:23 · 3430 阅读 · 0 评论 -
Python3爬虫学习——requests库笔记
简略记录python3库的一些知识:requests安装requests对象补充说明字节类型(byte类型)文件上传cookies设置超时设置SSL证书验证Session对象Response对象属性响应状态码状态码查询对象PreparedRequest对象原创 2023-01-25 16:21:28 · 465 阅读 · 0 评论 -
Python3爬虫学习——urlib库笔记
urllib库是python内置库,利用它就可以实现HTTP请求发送,而不需要关心HTTP链接是如何实现的,我们只需要给定指定的URL、请求头和请求体等信息即可。urllib库包含四个模块:- request:基本的HTTP请求模块,可以模拟浏览器发送请求。- error:异常处理模块,可以被我们用于捕获异常。- parse:工具模块,提供了众多URL处理方法。- robotparser:用于识别网站的robots.txt文件,并判断哪些网站可以爬,哪些网站不能爬。原创 2023-01-23 21:22:11 · 418 阅读 · 0 评论