爬虫
文章平均质量分 66
程序猿学习
这个作者很懒,什么都没留下…
展开
-
Python httpx库的使用
爬虫时,urllib 与 requests 库只支持HTTP/1.1,有些网站强制使用 HTTP/2.0 访问协议,则 此时 urllib 与 requests 将无能为力。目前来说,支持 HTTP/2.0 的请求库使用较多的是 hyper 和 httpx,其中 httpx 使用起来更为方便,功能也更强大,几乎支持了 requests 已有的所有功能。1、安装python 版本需为 3.6 及以上...原创 2023-08-11 08:01:03 · 337 阅读 · 0 评论 -
python 正则表达式(1)
用 requests 库可以获取网页的 HTML 源码,在做爬虫时,我们需要从 HTML 源码中提取我们需要的信息,这时就用到了正则表达式。常用正则表达式匹配规则如下:python 的 re 库提供了整个正则表达式的实现。1、Matchmatch 可以检测字符串和正则表达式是否匹配。match 从字符串起始位置开始匹配正则表达式,并返回匹配的结果,如果没有匹配结果,返回 None。使用方法如下:i...原创 2023-08-08 08:03:20 · 89 阅读 · 0 评论