python基础
函数中的符号表示
python定义函数时首行里的冒号和箭头的意义
def forward(self, x: Tensor) -> Dict[str, Tensor]:
:
函数参数中的冒号是参数的类型建议符,此处建议输入实参为Tensor类型。
->
函数后面跟着的箭头是函数返回值的类型建议符,此处建议函数返回值类型为字典,键值类型分别str,Tensor。
*args和**kwargs
通常的做法就是使用 *args 作为函数参数名称来表示该参数是一个可变数量的参数。
通常的做法就是使用 **kwargs 作为函数参数名称来表示该参数是一个可变数量的关键字参数。
lambda函数原理
group_hist = [(k, v) for k, v in sorted(split_dict.items(), key=lambda item: item[1])]
这行代码的作用是对每个字符组合进行优先级排序,从而找到优先级最高的组合。具体来说,它将 split_dict 中的项按值(即字符组合在词汇表中的索引)进行排序,形成一个排序的列表 group_hist。
lambda item: item[1] 是一个匿名函数,用于在排序过程中指定排序的依据。具体来说,这个 lambda 函数接受一个参数 item,并返回 item 的第二个元素(即 item[1])。
为了更好地理解它的作用和原理,我们可以分几步来解释:
1. 什么是 lambda
函数?
lambda
函数是一种小型匿名函数,可以有任意数量的参数,但只能有一个表达式。语法如下:
lambda 参数: 表达式
在这个例子中:
lambda item: item[1]
item
是输入参数。item[1]
是返回值,即item
的第二个元素。
2. 在排序中的作用
sorted()
函数可以接受一个 key
参数,用于指定排序的依据。key
参数需要一个函数作为其值,这个函数会作用于每个被排序的元素,并返回用于比较的值。
在你的代码中:
sorted(split_dict.items(), key=lambda item: item[1])
split_dict.items()
生成一个键值对的迭代器,例如[('an', 1), ('nj', 2), ('ji', 3)]
。lambda item: item[1]
将这些键值对中的每一个传递进来,并返回该键值对的第二个元素(即值)。
3. 原理
当 sorted()
函数进行排序时,会调用 key
函数(即 lambda item: item[1]
)获取每个元素的排序依据。具体步骤如下:
sorted()
依次取出split_dict.items()
中的每个元素,传递给key
函数。- 对于每个元素,例如
('an', 1)
,lambda item: item[1]
会返回1
。 sorted()
使用这些返回值进行比较,从而确定元素的顺序。
具体例子:
假设 split_dict
是:
split_dict = {'an': 1, 'nj': 2, 'ji': 3}
split_dict.items()
返回[('an', 1), ('nj', 2), ('ji', 3)]
。- 调用
sorted()
并传入key=lambda item: item[1]
。 - 对每个键值对,
lambda
函数返回其值:('an', 1)
返回1
('nj', 2)
返回2
('ji', 3)
返回3
sorted()
根据返回的值1
,2
,3
对键值对进行排序,结果是[('an', 1), ('nj', 2), ('ji', 3)]
(在这个例子中顺序未变)。
因此,lambda item: item[1]
的作用是告诉 sorted()
函数按照每个键值对的值(第二个元素)进行排序。
tqdm参数设置,便于进度观察
在使用 tqdm
进行进度条显示时,默认的显示格式可能不够直观,尤其是在处理大量数据时。你可以通过设置 tqdm
的参数来修改显示格式,使其更容易观察。
示例代码
假设你有以下代码:
import tqdm
for (ex_index, example) in tqdm.tqdm(enumerate(examples), desc="convert examples to features"):
# 你的处理代码
pass
修改显示格式
你可以通过调整 tqdm
的参数来改变进度条的显示方式。例如,使用 ncols
参数设置进度条的宽度,使用 ascii
参数将进度条变为 ASCII 字符,使用 unit
和 unit_scale
参数设置进度条的单位。
修改后的代码示例
import tqdm
# 假设 examples 是一个包含 150037 个元素的列表
examples = range(150037)
for (ex_index, example) in tqdm.tqdm(enumerate(examples), desc="Convert examples to features", total=len(examples), ncols=100, ascii=True, unit="it", unit_scale=True):
# 你的处理代码
pass
参数说明
total=len(examples)
:设置进度条的总长度,这样可以准确显示进度。ncols=100
:设置进度条的宽度为 100 列,适合你的终端宽度。ascii=True
:使用 ASCII 字符显示进度条,更加简单直观。unit="it"
:设置单位为it
(可以理解为 iterations)。unit_scale=True
:根据进度条的单位自动调整缩放。
更详细的示例
import tqdm
import time
# 假设 examples 是一个包含 150037 个元素的列表
examples = range(150037)
for (ex_index, example) in tqdm.tqdm(enumerate(examples), desc="Convert examples to features", total=len(examples), ncols=100, ascii=True, unit="it", unit_scale=True):
# 模拟处理时间
time.sleep(0.0001)
在这个示例中,我们使用 time.sleep(0.0001)
来模拟每次迭代的处理时间。你可以将其替换为你的实际处理代码。运行这个示例时,进度条会更直观地显示处理进度,例如:
Convert examples to features: 100%|##################################################| 150037/150037 [00:15<00:00, 10000.00it/s]
通过调整 tqdm
的参数,你可以使进度条的显示更加符合你的需求,使其在处理大量数据时更加直观和易于观察。