Options
base_options.py
action=‘store_false’
self._parser.add_argument('--CUDA', action='store_false')
https://blog.csdn.net/sinat_36197913/article/details/103314345
pseudo_infer.py
sys.argv[2]
PseudoInfer(sys.argv[2])
sys.argv其实可以看作是外部输入的一个列表,所以才能用[]提取其中的元素。
其第一个元素是程序本身,随后才依次是外部给予的参数。
sys.argv[2] 相当于于外部输入的第一个参数
train.py
忽略warning
import warnings
warnings.filterwarnings('ignore')
Utils
beam_search
Beam Search(集束搜索)是一种启发式图搜索算法,通常用在图的解空间比较大的情况下,为了减少搜索所占用的空间和时间,在每一步深度扩展的时候,剪掉一些质量比较差的结点,保留下一些质量较高的结点。这样减少了空间消耗,并提高了时间效率。
算法的工作流程如下:
使用广度优先策略建立搜索树,在树的每一层,按照启发代价对节点进行排序,然后仅留下预先确定的个数(Beam Width-集束宽度,B来限制在每一层的遍历时存储该层的节点数量 )的节点,仅这些节点在下一层次继续扩展,其他节点就被剪掉了。
- 将初始节点插入到list中,
- 将给节点出堆,如果该节点是目标节点,则算法结束;
- 否则扩展该节点,取集束宽度的节点入堆。然后到第二步继续循环。
- 算法结束的条件是找到最优解或者堆为空。
eg:
PriorityQueue
from queue import PriorityQueue
PriorityQueue是一种特殊的队列,满足队列的“队尾进、队头出”条件,但是每次插入或删除元素后,都对队列进行调整,使得队列始终构成最小堆(或最大堆)。
具体调整如下:
- 插入元素后,从堆底到堆顶调整堆;
- 删除元素后,将队尾元素复制到队头,并从堆顶到堆底调整堆。
PriorityQueue采用数组实现,也是一棵完全二叉树,构成堆结构
优先队列,有别于普通队列的先入先出,也有别于栈的先入后出。在实现上,它一般通过堆这一数据结构,而堆其实是一种完全二叉树,它会对进入容器的元素进行排序(根据事先指定的规则),出队的顺序则会是二叉树的根结点代表的元素。
topK问题
topK问题是指:从海量数据中寻找最大的前k个数据,比如从1亿个数据中,寻找最大的1万个数。
使用优先队列,能够很好的解决这个问题。先使用前1万个数构建最小优先队列,以后每取一个数,都与队头元素进行比较,若大于队头元素,就将队头元素删除,并将该元素添加到优先队列中;若小于队头元素,则将该元素丢弃掉。如此往复,直至所有元素都访问完。最后优先队列中的1万个元素就是最大的1万个元素。
unsqueeze
pytorch的unsqueeze和unsqueeze_的使用
unsqueeze用来改变Tensor的维度,把低维的Tensor变为高维的Tensor。如3×4的Tensor,变为1×3×4、3×1×4、3×4×1的Tensor。
squeeze(n)的参数n指定新维度的位置。