自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 python文本处理之unidecode

UUID 是一种唯一标识符,通常用于标识数据记录、对象或实体,确保它们在分布式系统中的唯一性。生成的短格式 UUID 不同于常见的长格式 UUID,它使用了更短的字符集和更短的长度,使其更适用于某些场景,如作为短标识符使用。是一个简单而有效的工具,用于生成短格式 UUID,特别适用于那些对标识符长度有要求的场景,例如生成短链接、创建独一无二的标识符等。这将生成使用指定字符集和最小长度的自定义短格式 UUID。你还可以指定一些参数,如。等,以满足特定需求。

2023-11-15 14:21:42 137

原创 python文本处理之shortuuid

UUID 是一种唯一标识符,通常用于标识数据记录、对象或实体,确保它们在分布式系统中的唯一性。生成的短格式 UUID 不同于常见的长格式 UUID,它使用了更短的字符集和更短的长度,使其更适用于某些场景,如作为短标识符使用。是一个简单而有效的工具,用于生成短格式 UUID,特别适用于那些对标识符长度有要求的场景,例如生成短链接、创建独一无二的标识符等。这将生成使用指定字符集和最小长度的自定义短格式 UUID。你还可以指定一些参数,如。等,以满足特定需求。

2023-11-15 14:18:56 209

原创 python文本处理之pypinyin

是一个用于将中文汉字转换为拼音的 Python 库。它支持将中文文本转换为带有声调或不带声调的拼音,并提供了一些其他有用的功能,如获取拼音首字母、处理多音字等。提供了丰富的功能,可用于将中文文本转换为拼音,并进行各种拼音相关的操作。这对于中文文本处理、拼音搜索和其他相关应用非常有用。支持处理多音字,默认情况下会返回所有可能的拼音,你可以通过设置。可能会返回多个可能的拼音,你可以根据具体需求选择合适的拼音。参数来控制是否考虑多音字。注意:处理多音字时,

2023-11-15 14:17:07 428

原创 python文本处理之fuzzywuzzy

是一个强大的工具,用于执行字符串比较和相似性分析,特别在文本数据清洗、搜索和字符串匹配方面非常有用。它可以帮助你找到最接近的匹配,拼写纠正和字符串相似度比较,以提高文本处理和搜索的效率。使用 Levenshtein 距离(编辑距离)算法来度量字符串之间的差异,允许你执行模糊字符串匹配,如拼写纠正、字符串匹配和相似性分析。它的主要用途是比较两个字符串之间的相似性,并为它们分配一个相似度分数。支持部分字符串匹配,允许你比较字符串的一部分而不是整个字符串。允许你比较两个字符串并返回它们之间的相似度分数。

2023-11-08 15:06:23 12883 1

原创 python文本处理之ftfy

它专注于修复不正确的或损坏的文本数据,以确保文本能够正确解析和显示,尤其是当文本包含不明字符或不兼容的编码时。是一个非常有用的工具,尤其在处理来自不同来源和编码的文本数据时。它可以帮助你自动修复文本中的问题,以确保文本正确解析和显示。这在数据清洗、文本分析和处理文本数据的应用中特别有用。还提供了 Unicode 规范化的功能,以确保文本中的字符使用一致的 Unicode 标准表示。有助于处理各种文本编码和字符集问题,确保文本在处理和显示时正确无误。这将尝试修复损坏的文本,使其正确显示。

2023-11-08 15:03:17 192

原创 Python文本处理之difflib

是 Python 标准库中的一个模块,用于执行文本比较和差异分析。它提供了一种比较两个文本字符串(或其他序列)的方式,以查找它们之间的差异和相似性。这在许多应用中非常有用,如版本控制、自然语言处理、文件比较等。是一个功能强大的库,可用于执行文本比较和差异分析任务。无论是查找文本差异还是查找相似字符串,它都是一个有用的工具。这将输出与 “datte” 最相似的字符串,可能是 “date”。函数可以用于查找与给定字符串最相似的字符串。这将输出比较结果,显示两个文本之间的差异。

2023-11-08 14:58:42 137 1

原创 Python文本处理之tablib

你可以根据你的需求选择适当的数据格式,导入和导出数据,以及进行各种数据操作和转换。是一个 Python 库,用于处理和操作表格数据,支持多种表格数据格式。它提供了一种方便的方式来创建、读取、写入和操作表格数据,如 Excel 表格、CSV 文件、JSON 数据等。提供了各种数据转换函数,使你能够将数据从一种格式转换为另一种格式,如将数据从 JSON 转换为 CSV 或 Excel 格式。支持多种数据格式,包括 CSV、Excel、JSON、YAML 等,你可以轻松导入和导出数据。,你可以轻松创建表格数据。

2023-11-08 14:55:13 64 1

原创 什么是代码覆盖率

通过提高代码覆盖率,开发人员可以增强代码的质量,减少潜在的错误和缺陷,并提高软件的可维护性。然而,高代码覆盖率并不一定意味着软件没有问题,因为它只是度量测试的范围,而不是测试的质量。它通常以百分比的形式表示,表示已经被执行或覆盖的代码行、语句、分支或路径占总代码的比例。代码覆盖率主要用于帮助开发人员和测试人员了解他们的测试用例对源代码的覆盖程度,以确定哪些代码路径已经被测试,哪些尚未被测试。行覆盖率(Line Coverage):衡量测试用例执行的代码行数占总代码行数的比例。

2023-11-08 14:34:33 262 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除