
在vllm中,使用llm.generate()返回的List[RequestOutput]里面有什么参数?如何获得回答的token表示?
在下面查到llm.generate的方法介绍,发现返回的是List[RequestOutput],也就是一个由RequestOutput组成的列表,根据经验,长度应该和输入的prompt个数一样。所以说,现在就要看RequestOutput是什么。从源码中看到,outputs是List[CompletionOutput],是一个列表,可能表示的是采样的个数吧,对一个prompt,可以一次采样多个回答。在使用vllm的时候,需要对输出做一个token数量的统计,但是在一般的示例里面都是如下摸样:。












