![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 68
顽皮的橙子
这个作者很懒,什么都没留下…
展开
-
爬虫必备_正则表达式
什么是正则表达式正则表达式(Regular Expression), 是一个模版字符串, 可以根据这个模版字符串, 对其它字符串进行匹配, 查找, 替换等操作元字符(metacharacter)正则表达式由一个或多个元字符组成常见的元字符:元字符描述[ ]字符类(character class),匹配其中的任意一个字符[a-z]字符a到z的任意一个[^a]不是字符a,^需放在首位*重复前一字符0+次,贪婪匹配(匹配尽可能多的字符)*?重复前一字原创 2022-02-21 19:37:15 · 211 阅读 · 0 评论 -
爬虫基础_httpx
为什么要使用httpxrequests模块不支持http2.0协议, 在访问使用http2.0协议的网站时, 就需要用到httpx# 使用requests模块访问http2.0的网站, 会报错import requestsurl = 'https://spa16.scrape.center/'headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik原创 2022-02-20 20:46:35 · 551 阅读 · 0 评论 -
爬虫基础_requests库
安装pip install requests基本使用处理GET请求import requestsurl = 'https://www.httpbin.org/get'params = { # GET请求参数 'name': 'germey', 'age': 25}headers = { # 请求头信息 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KH原创 2022-02-07 10:01:48 · 648 阅读 · 0 评论 -
爬虫基础_urllib
urllib库的结构urllib库包含以下四个模块:request: 基本的HTTP请求模块error: 异常处理模块parse: 工具模块robotparser: 识别robots.txt的模块urlopen方法使用urlopen方法可以发送简单请求APIurllib.request.urlopen(url, data=None, [timeout,] *, cafile=None, capath=None, cadefault=False, context=None)url:原创 2022-02-06 11:38:24 · 1515 阅读 · 0 评论 -
爬虫前置_HTTP基础
URI, URL 与 URNURI* URI: 全称 Uniform Resource Identifier, 即统一资源标识符, 用来在互联网上唯一的标识某一特定的资源* URI包含两个子集: URL 和 URNURN* URN: 全称 Universal Resource Name, 即统一资源名称, 只描述资源的名称, 而不定位 (很少使用) 例如: urn:isbn:0451450523 指定了一本书的ISBN, 可以唯一标识一本书, 但不能定位这本书的资源URL* URL: 全原创 2022-01-28 07:55:11 · 74 阅读 · 0 评论