URL格式

参考了百度百科,说一下URL同志的格式问题:

URL的定义:

在WWW上,每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL(Uniform Resource Locator,统一资源定位符),它是WWW的统一资源定位标志,就是指网络地址。

URL的组成部分

URL由三部分组成:资源类型,存放资源的主机域名,资源文件名。

URL的一般语法格式:

(带方括号[]的为可选项):

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

下面对格式进行一下说明:

protocol(协议):

指定使用的传输协议,下面也列出了几种protocol属性的有效方案名称。那我们最常用的就是HTTP协议,它也是目前www中应用最广泛的协议。
file 资源是本地计算机上的文件。格式file:///,注意后边应是三个斜杠。
ftp 通过 FTP访问资源。格式 FTP://
gopher 通过 Gopher 协议访问该资源。
http 通过 HTTP 访问该资源。 格式 HTTP://
https 通过安全的 HTTPS 访问该资源。 格式 HTTPS://
mailto 资源为电子邮件地址,通过 SMTP 访问。 格式 mailto:

hostname(主机名)

是指存放资源的服务器的域名系统(DNS) 主机名或 IP 地址。有时,在主机名前也可以包含连接到服务器所需的用户名和密码(格式:username:password@hostname)。

port(端口号)

整数,可选,省略时使用方案的默认端口,各种传输协议都有默认的端口号,如http的默认端口为80。如果输入时省略,则使用默认端口号。有时候出于安全或其他考虑,可以在服务器上对端口进行重定义,即采用非标准端口号,此时,URL中就不能省略端口号这一项。

path(路径)

由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。
parameters(参数)
这是用于指定特殊参数的可选项。

parameters(参数)

这是用于指定特殊参数的可选项。

query(查询)

可选,用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/ASP。NET等技术制作的网页)传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。

fragment(信息片断)

字符串,用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。

URL模块

URL用于解析字符串和处理字符串,提供了三个方法

1.parse

举例:

//变量url即具有了url模块所提供的方法
var url = require('url');
var queryUrl = "http://localhost:8888/bb?name=bigbear&memo-helloworld";
console.log(typeof url.parse(queryUrl));
console.log(url.parse(queryUrl));

输出结果:

object
Url {
  protocol: 'http:',
  slashes: true,
  auth: null,
  host: 'localhost:8888',
  port: '8888',
  hostname: 'localhost',
  hash: null,
  search: '?name=bigbear&memo-helloworld',
  query: 'name=bigbear&memo-helloworld',
  pathname: '/bb',
  path: '/bb?name=bigbear&memo-helloworld',
  href: 'http://localhost:8888/bb?name=bigbear&memo-helloworld' }

对输出结果说明一下:
protocol: 请求协议

host: URL主机名已全部转换成小写, 包括端口信息

auth:URL中身份验证信息部分

hostname:主机的主机名部分, 已转换成小写

port: 主机的端口号部分

pathname: URL的路径部分,位于主机名之后请求查询之前

search: URL 的“查询字符串”部分,包括开头的问号。

path: pathname 和 search 连在一起。

query: 查询字符串中的参数部分(问号后面部分字符串),或者使用 querystring.parse() 解析后返回的对 象。

hash: URL 的 “#” 后面部分(包括 # 符号)
parse方法有两个参数:url字符串与一个可选的布尔值。布尔值用来确定queryString是否要用queryString模块来解析,默认为false;如果第二个参数是true,那么输出结果如下:

Url {
  protocol: 'http:',
  slashes: true,
  auth: null,
  host: 'localhost:8888',
  port: '8888',
  hostname: 'localhost',
  hash: null,
  search: '?name=bigbear&memo-helloworld',
  //queryString经过queryString模块解析
  query: { name: 'bigbear', 'memo-helloworld': '' },
  pathname: '/bb',
  path: '/bb?name=bigbear&memo-helloworld',
  href: 'http://localhost:8888/bb?name=bigbear&memo-helloworld' }
format方法

format方法与parse方法相反,它是根据某个对象生成URL字符串

var url = require('url');
var queryUrl = "http://localhost:8888/bb?name=bigbear&memo-helloworld#about";
var object = url.parse(queryUrl);
console.log(url.format(object));
//输出结果
http://localhost:8888/bb?name=bigbear&memo-helloworld#about
resolve方法

resolve(from,to)方法用于拼接URL,它根据相对URL拼接成新的URL

url.resolve('/one/two/three', 'four')         // '/one/two/four'
url.resolve('http://huahua.com/', '/one')    // 'http://example.com/one'
url.resolve('http://huahua.com/one', '/two') // 'http://example.com/two'
  • 13
    点赞
  • 68
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是使用正则表达式校验URL格式的示例代码: ```python import re def is_valid_url(url: str) -> bool: regex = re.compile( r'^https?://' # http:// 或 https:// 开头 r'(?:(?:[A-Z0-9_](?:[A-Z0-9_-]{0,61}[A-Z0-9_])?\.)+(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)|' # 域名部分 r'localhost|' # 或者是本地地址 r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})' # 或者是IP地址 r'(?::\d+)?' # 端口号(可选) r'(?:/?|[/?]\S+)$', re.IGNORECASE) return bool(regex.match(url)) # 测试示例 print(is_valid_url('http://www.example.com')) # True print(is_valid_url('https://example.com/path/to/page.html')) # True print(is_valid_url('ftp://example.com/path/to/file.txt')) # False print(is_valid_url('http://localhost:8080')) # True print(is_valid_url('http://127.0.0.1')) # True ``` 该函数使用了一个较为复杂的正则表达式,可以较为准确地校验URL格式。其中,该正则表达式包含以下几个部分: 1. `^https?://`:以 `http://` 或 `https://` 开头。 2. `(?:...|...)`:表示两个或多个可选的匹配项。 3. `[A-Z0-9_](?:[A-Z0-9_-]{0,61}[A-Z0-9_])?\.`:匹配域名中的一级和多级子域名,例如 `www.`、`blog.` 等。 4. `(?:[A-Z]{2,6}\.?|[A-Z0-9-]{2,}\.?)`:匹配顶级域名,例如 `.com`、`.co.uk` 等。 5. `localhost`:匹配本地地址。 6. `\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}`:匹配IP地址。 7. `(?::\d+)?`:匹配可选的端口号。 8. `(?:/?|[/?]\S+)$`:匹配可选的路径和查询参数。 如果URL符合以上规则,则返回 `True`,否则返回 `False`。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值