爬虫学习
文章平均质量分 71
我们开源,我们收容
无根树浮生时
立身,慎独,正心。
展开
-
第六节 网页数据提取
【代码】第六节 网页数据提取。原创 2023-12-12 20:09:49 · 51 阅读 · 0 评论 -
第五节 数据存储
【代码】第五节 数据存储。原创 2023-12-09 19:16:17 · 44 阅读 · 0 评论 -
第四节 正则表达式
非贪婪匹配:尽可能少的匹配字符,在字符串末尾非贪婪匹配有可能匹配不到任何内容,最好放在字符串中间使用。打开开源中国正则表达式测试工具 http://tool.oschina.net/regex。通用匹配(贪婪匹配) :会尽可能多的去匹配字符。若是字符中出现 . 需要进行 \. 转义。原创 2023-11-22 21:29:42 · 72 阅读 · 0 评论 -
第三节 requests库的使用
POST请求就是我们常说的提交表单,表单内的是数据内容就是POST请求参数。Reuqests实现POST请求需设置请求参数data,数据格式可以为(字典,元组,列表和JSON格式)1.使用requests库自带的身份认证功能,通过设置auth参数即可。复杂的请求方式包含(请求头,代理IP,证书验证和cookies)(3):如果一个URL有多个参数,参数之间用“&”连接起来。GET请求有两种形式:分别是不带参数和带参数。"说明该URL是带参数的。(1):wd是参数名,参数名由网站规定。原创 2023-11-21 21:09:03 · 94 阅读 · 0 评论 -
第二节 urllib库的使用
urllib库:最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求并可以保存服务器返回的参数。(用于操作URL,并对网页内容进行抓取)1. urllib.request :打开和读取URL2. urllib.error : 包含URL抛出的异常3. urllib.parse :解析URL4. urrlib.rebotparser :解析rebots.text文件遵守规则,就不会出错!原创 2023-05-04 21:06:50 · 275 阅读 · 0 评论 -
第一节 基础知识的了解
URL:URL 是“统一资源定位符”(Uniform Resource Locator)的首字母缩写,中文译为“网址”,表示各种资源的互联网地址。。URL 由多个部分组成。下面是一个比较复杂的 URL,实际的 URL 通常不会有这么多部分。“宝剑锋从磨砺出,梅花香自苦寒来”原创 2023-05-04 21:05:13 · 75 阅读 · 1 评论 -
从零开始学习Python爬虫
工欲善其事,必先利其器。原创 2023-05-04 21:06:36 · 45 阅读 · 0 评论