字节朝夕光年游戏部门:强化学习算法工程师
投了了字节,还在准备就收到了面试邀约,然后就挂了 T_T,进大厂还是得好好准备一下
面试问题:
- 自我介绍
- 项目细节
- 项目中智能体如何感知环境
- DDPG算法细节以及一些关键的伪代码
- DDPG改进算法
- Soft Actor-Critic算法?
-
Soft Actor-Critic (SAC)是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法,和DDPG相比,Soft Actor-Critic使用的是随机策略stochastic policy,相比确定性策略具有一定的优势
-
-
编程题
岛屿问题
class Solution:
def dfs(self, grid, r, c):
grid[r][c] = 0
nr, nc = len(grid), len(grid[0])
for x, y in [(r+1, c), (r-1, c), (r, c+1), (r, c-1)]:
if 0 <= x < nr and 0 <= y < nc and grid[x][y] == '1':
self.dfs(grid, x, y)
def numIslands(self, grid: List[List[str]]) -> int:
nr = len(grid)
if nr == 0:
return 0
nc = len(grid[0])
numIslands = 0
for r in range(nr):
for c in range(nc):
if grid[r][c] == '1':
numIslands += 1
self.dfs(grid, r, c)
return numIslands