爬虫
文章平均质量分 72
seaskyccl
海阔天空,学海无涯!!
展开
-
为什么要学正则表达式
正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑。给定的字符串是否符合正则表达式的过滤逻辑("匹配");通过正则表达式,从文本字符串中获取我们想要的特定部分("过滤")。原创 2024-02-01 09:40:06 · 790 阅读 · 0 评论 -
多线程糗事百科案例
案例要求参考上一个糗事百科单进程案例。原创 2024-01-30 09:56:29 · 214 阅读 · 0 评论 -
Requests的简单使用
Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 "HTTP for Humans",说明使用更简洁方便。使用response.content 时,返回的是服务器响应数据的原始二进制字节流,可以用来保存图片等二进制文件。原创 2024-01-29 16:00:38 · 609 阅读 · 0 评论 -
爬取糗事百科段子
使用requests获取页面信息,用XPath / re 做数据提取。爬取糗事百科段子,假设页面的URL是。保存到 json 文件内。原创 2024-01-29 15:50:53 · 125 阅读 · 0 评论 -
通用爬虫和聚焦爬虫
根据使用场景,网络爬虫可分为和两种.原创 2024-01-29 15:48:48 · 1094 阅读 · 0 评论