python接口定义规范化_URL规范化Python实现

最新推荐文章于 2022-04-22 09:58:16 发布

weixin_39908616

最新推荐文章于 2022-04-22 09:58:16 发布

阅读量225

点赞数

文章标签： python接口定义规范化

本文链接：https://blog.csdn.net/weixin_39908616/article/details/111443637

版权

指向同一资源的URL表现形式可能存在差异，例如，下面三个URL实际上指向的是同一资源：

http://www.REDICECN.com/

http://www.redicecn.com

http://www.redicecn.com/tools/../

对于爬虫来说，合理的处理方式是将上述三个表现不同URL视为相同的URL。

下面给出一个Python的解决方案，没有考虑URL编码的问题：

# url_normal.py

# by redice

import re

import urlparse

def url_normal(url):

"""normalize url

"""

scheme, netloc, upath, qus = urlparse.urlsplit(url)[:4]

netloc = netloc.lower()

if upath:

upath = re.sub('/{2,}', '/', upath)

upath = re.sub(r'/\./', '/', upath)

parent_regex = re.compile(r'/[^/]+/\.\.')

while parent_regex.search(upath):

upath = parent_regex.sub('/', upath)

upath = re.sub('/{2,}', '/', upath)

if upath.startswith('/..') or upath.endswith('/.'):

upath = ''

else:

upath = re.sub('/$', '', upath)

if qus:

return '%s://%s%s?%s' % (scheme, netloc, upath or '/', qus)

else:

return '%s://%s%s' % (scheme, netloc, upath)

if __name__ == '__main__':

print url_normal('http://www.REDICECN.com/?id=1')

print url_normal('http://www.redicecn.com:80/.')

print url_normal('http://www.redicecn.com//tools/../index.php?upcache=1')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39908616

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python类变量初始化_python中用函数初始化类变量 | 学步园

weixin_39573512的博客

12-04

581

今天在写python的时候遇到一个问题:定义了一个list类型的类变量,但是这个list需要在初始化的时候给它加很多的url进去.这样的话我们就需要用倒函数了.结果自己刚开始这样写的:class TianyaSpider(CrawlSpider):def init_start():url_l = u'http://search.tianya.cn/s?tn=sty&rn=10&pn...

Python 编码规范(Google)

python学习教程

11-28

132

Python 风格规范(Google) 本项目并非 Google 官方项目, 而是由国内程序员凭热情创建和维护。如果你关注的是 Google 官方英文版, 请移步 Google Style Guide 以下代码中 Yes 表示推荐，No 表示不推荐。分号不要在行尾加分号, 也不要用分号将两条命令放在同一行。行长度每行不超过80个字符以下情况除外：长的导入模块语句注释里的URL 不要...

参与评论您还未登录，请先登录后发表或查看评论

Python库 | normalizeurl-1.0.0.tar.gz

04-12

资源分类：Python库所属语言：Python 资源全名：normalizeurl-1.0.0.tar.gz 资源来源：官方安装方法：https://lanzao.blog.csdn.net/article/details/101784059

python标准化地址_Python中的URL解析-标准化路径中的双斜杠

weixin_42119989的博客

01-13

262

I am working on an app which needs to parse URLs (mostly HTTP URLs) in HTML pages - I have no control over the input and some of it is, as expected, a bit messy.One problem I'm encountering frequently...

双斜杠python_Python中的URL解析-规范化路径中的双斜杠

weixin_39580041的博客

11-27

343

路径（//path）本身无效，这会混淆函数并被解释为主机名If a URI does not contain an authority component, then the path cannot begin with two slash characters ("//").我不太喜欢这两种解决方案，但它们都有效：import reimport urlparsetesturl = 'http:/...

基于Python的数据的规整化

lynn_Dai的博客

04-18

257

1、合并数据集 from pandas import DataFrame,Series import pandas as pd import numpy as np df1 = DataFrame({'key':['b','b','a','c','a','a','b'], 'data1':range(7)}) df2 = DataFrame({'key':['b',...

url.py 接口视图

weixin_55935470的博客

08-04

125

url.py 接口视图 # 请求参数： username，region，instance_id # http://127.0.0.1:8000/api/start_instance/?region_name=cn-hangzhou&instance_id=i-bp11itscfjcatu93k6fb path('start_instance/', StartInstanceAPIView.as_view()), # 请求参数： username，region，inst

Python 编码规范(Google)_菜鸟教程

01-04

在Python编程实践中，编码规范是确保代码的可读性和一致性的重要因素。本知识点将围绕Google风格规范（非官方项目，由国内程序员创建）展开，详细介绍Python编程中的代码风格规则，包括对代码结构、注释、命名规则等...

my-python-files.rar_python_python网络爬虫

最新发布

09-21

Python网络爬虫是一种用于自动化网页数据抓取的技术，它能够高效地从互联网上获取大量信息。这个名为"my-python-files.rar"的压缩包包含了几个与Python网络爬虫相关的实践项目和示例代码，有助于深入理解和学习这一...

URL如何标准化？

从零开始学习python --zeropython

06-02

339

URL如何标准化？对于首页我们一般选择带www的作为唯一的URL，对于一级目录时，一般直接用目录形式，而不带index.php等等，这里，我要给你强调一个思路。请记住：每个关键词对应的应该是一个URL而不是多个。(但可以多个关键词对应同一个URL) 有点难理解?是的，刚开始几乎所有人都不明白，但当你把这个搞明白了，你就又前...

如何定义好一个符合规范的url

qq_36840503的博客

05-06

336

如何定义好一个符合规范的url 描述进公司没有多久遇到一个问题，定义的url会被大神吐槽说是很渣。之前从来没有注意这块，今天把我们团队的url规范分享给大家。为什么需要URL规范化 1、网站URL和结构已经成为网站搜索引擎友好的最大基础性问题，网站URL 和结构问题，早发现早优化，越是往后放，最后就成了制约网站运营和产品开发的决定性因素。 2、无论是网站的可用性还是网站对搜索引擎的吸引力，清晰明了的浏览路径都是相当重要的，URL是统一资源定位，即每个网页的网址、路径。 3、浏览路径让网站的导航结

python restful风格接口配置路由自定义url

weixin_43746952的博客

05-20

1424

from flask import Flask,request,render_template from flask_restful import reqparse, abort, Api, Resource @app.route("/login",methods=["POST","GET"]) #定义路由（路径） def login(): if request.m...

如何定义好一个符合规范的URL

weixin_34233618的博客

10-17

186

2019独角兽企业重金招聘Python工程师标准>>> ...

URL命名规范

热门推荐

yangcx

01-18

1万+

Browser URL规范基本规范不允许出现没有意义的下 URL 只能允许英文字母（az，全小写）、数字（09），英文连接符(-) https://展开的层级目录内容中不允许出现“丨”、下划线“_”、多斜杠字符“//”、“+”、“#”（除特殊情况比如开发人员使用#锚点定位）层次命名不要超过3个单词正确示例：https://www.example.com/first/second/third.html 错误示例：https://www.example.com/first/second/

URL详细分析及在python中处理URL

热爱编程的你我

04-22

2908

URL详细分析及在python中处理URL

python学习笔记之URL

pdstar的博客

02-12

371

在实际应用中，URL就是我们所说的网址。1、url 组成部分：schema://path?query 协议+路径（主机和域名）+参数如bing词典的网址： http://cn.bing.com/dict/?FORM=Z9LH32、url 编码规则除英文字母，数字和部分符号外，其它的（如汉字）全部使用百分号+十六进制码值进行编码3、url 参数规则参数以问号作为开始；参数...

Python - 构建URL

Allen_by的博客

12-24

3203

Requests模块可以帮助我们构建URL并动态操作URL值。可以通过编程方式获取URL的任何子目录，然后可以使用新值替换其中的某些部分以构建新URL。 Build_URL from requests.compat import urljoin base='https://stackoverflow.com/questions/3764291' print(urljoin(base,'.')) p...

Python实现接口：基础与实战示例

在Python编程中，实现接口是一种关键的设计和开发技术，尤其是在构建Web应用和服务时。接口（通常指的是HTTP API）提供了一种规范，定义了客户端如何与服务端进行交互，但并不包含具体的业务逻辑实现。接口设计的...