上一篇文章中说到k8s是一个主从架构,接口管理和调度模块都在主节点上,node节点作为kubernetes的从节点,负责实际的pod管理。在创建Pod时决定Pod创建在那个node节点上则是由scheduler模块来进行调度。
目前工作中用的kubernetes版本为1.5版本,在使用过程中发现存在同名节点导致调度异常的问题,这周仔细研究了下kubernetes scheduler模块的源码,发现在对node节点进行管理时,kubernetes维持了一个cache,cache采用Map<name,nodeInfo>对node节点的信息进行缓存,这里的name只是存了node节点的名称,并没有加入node的namespace,这个就会产生问题,在存在不同namespace下同名的node时,在缓存中只会随机存入一个node节点的信息,scheduler只会感知一个node,所有pod都会调度到缓存的节点上,当这个node节点资源不足时则调度失败,而这时另一个namespace下的同名node没有被调度。
func (cache *schedulerCache) AddNode(node *v1.Node) error {
cache.mu.Lock()
defer cache.mu.Unlock()
n, ok := cache.nodes[node.Name]
if !ok {
n = NewNodeInfo()
cache.nodes[node.Name] = n
}
return n.SetNode(node)
}
node节点作为kubernetes的从节点,通过纳管流程将普通的计算节点纳管到kubermetes中进行管理,纳管时kubernetes会