python模型预测随机性去除：字典keys()和集合set()的顺序随机性

本文链接：https://blog.csdn.net/nixiaoyunn/article/details/105654700

模型预测时一直去不掉随机性，固定seed也没有用，每次运行结果有略微不同。

后调试发现是由于字典keys()和集合set()的顺序随机性导致。（应该只有set，keys()不是，而且注意是不同次运行，而不是同一次运行的多次重复时，才会不一样。）

如下例，虽然后续有按非key的字段用sorted()排序，但是由于非key字段值可能重复，sorted()对于相同value又是按照输入顺序保序排序的，所以两次运行输入顺序不同，导致sorted后顺序也不同。

combined_answers = [(t, (o1.get(t, 0), o2.get(t, 0))) for t in list(set(o1.keys())|set(o2.keys()))]
# 上面的key顺序两次运行不固定，虽然下面根据字段1来sorted，但是字段1值相同的则顺序不固定，排序后依然不固定
answers_logits = sorted(combined_answers, key=lambda x: -sum(x[1]))

np.random.seed(1)  # 可固定seed
ids = list(set(set1.keys())&set(set2.keys()))
# 即使random可固定seed，但是上面ids顺序不固定，所以还是不固定
ids = np.random.permutation(list(ids))  # random

解决办法是对key字段排序，或set情况下list(set())后对列表排序，保证输入顺序相同。

后面如果要改变顺序，用np.random再随机化，则可通过在前面固定seed的方式使得结果可复现。

combined_answers = [(t, (o1.get(t, 0), o2.get(t, 0))) for t in sorted(list(set(o1.keys())|set(o2.keys())))]
# sorted对key排序
answers_logits = sorted(combined_answers, key=lambda x: -sum(x[1]))

np.random.seed(1)  # 可固定seed
ids = list(set(set1.keys())&set(set2.keys()))
ids = sorted(ids)  # 添加排序
ids = np.random.permutation(list(ids))  # random，前面固定seed