爬虫
文章平均质量分 68
顽皮的橙子
这个作者很懒,什么都没留下…
展开
-
爬虫必备_正则表达式
什么是正则表达式 正则表达式(Regular Expression), 是一个模版字符串, 可以根据这个模版字符串, 对其它字符串进行匹配, 查找, 替换等操作 元字符(metacharacter) 正则表达式由一个或多个元字符组成 常见的元字符: 元字符 描述 [ ] 字符类(character class),匹配其中的任意一个字符 [a-z] 字符a到z的任意一个 [^a] 不是字符a,^需放在首位 * 重复前一字符0+次,贪婪匹配(匹配尽可能多的字符) *? 重复前一字原创 2022-02-21 19:37:15 · 255 阅读 · 0 评论 -
爬虫基础_httpx
为什么要使用httpx requests模块不支持http2.0协议, 在访问使用http2.0协议的网站时, 就需要用到httpx # 使用requests模块访问http2.0的网站, 会报错 import requests url = 'https://spa16.scrape.center/' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik原创 2022-02-20 20:46:35 · 627 阅读 · 0 评论 -
爬虫基础_requests库
安装 pip install requests 基本使用 处理GET请求 import requests url = 'https://www.httpbin.org/get' params = { # GET请求参数 'name': 'germey', 'age': 25 } headers = { # 请求头信息 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KH原创 2022-02-07 10:01:48 · 685 阅读 · 0 评论 -
爬虫基础_urllib
urllib库的结构 urllib库包含以下四个模块: request: 基本的HTTP请求模块 error: 异常处理模块 parse: 工具模块 robotparser: 识别robots.txt的模块 urlopen方法 使用urlopen方法可以发送简单请求 API urllib.request.urlopen(url, data=None, [timeout,] *, cafile=None, capath=None, cadefault=False, context=None) url:原创 2022-02-06 11:38:24 · 1576 阅读 · 0 评论 -
爬虫前置_HTTP基础
URI, URL 与 URN URI * URI: 全称 Uniform Resource Identifier, 即统一资源标识符, 用来在互联网上唯一的标识某一特定的资源 * URI包含两个子集: URL 和 URN URN * URN: 全称 Universal Resource Name, 即统一资源名称, 只描述资源的名称, 而不定位 (很少使用) 例如: urn:isbn:0451450523 指定了一本书的ISBN, 可以唯一标识一本书, 但不能定位这本书的资源 URL * URL: 全原创 2022-01-28 07:55:11 · 94 阅读 · 0 评论
分享