1 . 学习率(Learning rate):
翻译:就像调味料,少了没味,多了咸死人。
原则:太高会爆炸,太低会睡着。开始时可以用0.01,0.001之类的。
2. 批大小(Batch Size):
翻译:做饭时一锅炒多少菜,选太多炒不动,选太少饿死。
原则:小批量快但不稳,大批量慢但准。经常用的是32,64,128
3. 层数和节点数 (Layer Depth & Node Count):
翻译:多层次是王道,但别盖得太高,否则你的房屋会倒。
原则:试试添加或减少隐藏层,改变每层的节点数。
4. 激活函数(Activation Function):
翻译:生活需要激情,神经元也一样。
原则:ReLU通常是首选,但如果你觉得自己是个激进派,试试Leaky ReLU。
5. 优化器 (Optimizer):
翻译:这就像你的导航系统,告诉你怎么下山最快。
原则:Adam是个不错的全才,但不妨尝试一下SGD或RMSprop。
6. 初始化方法 (Initialization):
翻译:起始就像下棋的开局,搞砸了可能就赢不了了。
原则:常见的有Xavier、He或LeCun初始化。
7. 丢弃率(Dropout Rate):
翻译:让神经元轮流休假去,防止他们太累(过拟合)。
原则:一般在0.2到0.5之间,如果数值太小,团队人数太少工作量太大。