python基础

print

在这里插入图片描述

函数中的符号表示

python定义函数时首行里的冒号和箭头的意义
def forward(self, x: Tensor) -> Dict[str, Tensor]:

: 函数参数中的冒号是参数的类型建议符,此处建议输入实参为Tensor类型。
-> 函数后面跟着的箭头是函数返回值的类型建议符,此处建议函数返回值类型为字典,键值类型分别str,Tensor。

*args和**kwargs

通常的做法就是使用 *args 作为函数参数名称来表示该参数是一个可变数量的参数。
通常的做法就是使用 **kwargs 作为函数参数名称来表示该参数是一个可变数量的关键字参数。

lambda函数原理

group_hist = [(k, v) for k, v in sorted(split_dict.items(), key=lambda item: item[1])]

这行代码的作用是对每个字符组合进行优先级排序,从而找到优先级最高的组合。具体来说,它将 split_dict 中的项按值(即字符组合在词汇表中的索引)进行排序,形成一个排序的列表 group_hist。

lambda item: item[1] 是一个匿名函数,用于在排序过程中指定排序的依据。具体来说,这个 lambda 函数接受一个参数 item,并返回 item 的第二个元素(即 item[1])。

为了更好地理解它的作用和原理,我们可以分几步来解释:

1. 什么是 lambda 函数?

lambda 函数是一种小型匿名函数,可以有任意数量的参数,但只能有一个表达式。语法如下:

lambda 参数: 表达式

在这个例子中:

lambda item: item[1]
  • item 是输入参数。
  • item[1] 是返回值,即 item 的第二个元素。

2. 在排序中的作用

sorted() 函数可以接受一个 key 参数,用于指定排序的依据。key 参数需要一个函数作为其值,这个函数会作用于每个被排序的元素,并返回用于比较的值。

在你的代码中:

sorted(split_dict.items(), key=lambda item: item[1])
  • split_dict.items() 生成一个键值对的迭代器,例如 [('an', 1), ('nj', 2), ('ji', 3)]
  • lambda item: item[1] 将这些键值对中的每一个传递进来,并返回该键值对的第二个元素(即值)。

3. 原理

sorted() 函数进行排序时,会调用 key 函数(即 lambda item: item[1])获取每个元素的排序依据。具体步骤如下:

  1. sorted() 依次取出 split_dict.items() 中的每个元素,传递给 key 函数。
  2. 对于每个元素,例如 ('an', 1)lambda item: item[1] 会返回 1
  3. sorted() 使用这些返回值进行比较,从而确定元素的顺序。

具体例子:

假设 split_dict 是:

split_dict = {'an': 1, 'nj': 2, 'ji': 3}
  1. split_dict.items() 返回 [('an', 1), ('nj', 2), ('ji', 3)]
  2. 调用 sorted() 并传入 key=lambda item: item[1]
  3. 对每个键值对,lambda 函数返回其值:
    • ('an', 1) 返回 1
    • ('nj', 2) 返回 2
    • ('ji', 3) 返回 3
  4. sorted() 根据返回的值 1, 2, 3 对键值对进行排序,结果是 [('an', 1), ('nj', 2), ('ji', 3)](在这个例子中顺序未变)。

因此,lambda item: item[1] 的作用是告诉 sorted() 函数按照每个键值对的值(第二个元素)进行排序。

tqdm参数设置,便于进度观察

在使用 tqdm 进行进度条显示时,默认的显示格式可能不够直观,尤其是在处理大量数据时。你可以通过设置 tqdm 的参数来修改显示格式,使其更容易观察。

示例代码

假设你有以下代码:

import tqdm

for (ex_index, example) in tqdm.tqdm(enumerate(examples), desc="convert examples to features"):
    # 你的处理代码
    pass

修改显示格式

你可以通过调整 tqdm 的参数来改变进度条的显示方式。例如,使用 ncols 参数设置进度条的宽度,使用 ascii 参数将进度条变为 ASCII 字符,使用 unitunit_scale 参数设置进度条的单位。

修改后的代码示例
import tqdm

# 假设 examples 是一个包含 150037 个元素的列表
examples = range(150037)

for (ex_index, example) in tqdm.tqdm(enumerate(examples), desc="Convert examples to features", total=len(examples), ncols=100, ascii=True, unit="it", unit_scale=True):
    # 你的处理代码
    pass

参数说明

  • total=len(examples):设置进度条的总长度,这样可以准确显示进度。
  • ncols=100:设置进度条的宽度为 100 列,适合你的终端宽度。
  • ascii=True:使用 ASCII 字符显示进度条,更加简单直观。
  • unit="it":设置单位为 it(可以理解为 iterations)。
  • unit_scale=True:根据进度条的单位自动调整缩放。

更详细的示例

import tqdm
import time

# 假设 examples 是一个包含 150037 个元素的列表
examples = range(150037)

for (ex_index, example) in tqdm.tqdm(enumerate(examples), desc="Convert examples to features", total=len(examples), ncols=100, ascii=True, unit="it", unit_scale=True):
    # 模拟处理时间
    time.sleep(0.0001)

在这个示例中,我们使用 time.sleep(0.0001) 来模拟每次迭代的处理时间。你可以将其替换为你的实际处理代码。运行这个示例时,进度条会更直观地显示处理进度,例如:

Convert examples to features: 100%|##################################################| 150037/150037 [00:15<00:00, 10000.00it/s]

通过调整 tqdm 的参数,你可以使进度条的显示更加符合你的需求,使其在处理大量数据时更加直观和易于观察。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值