初始化,不能一开始全部全设成0,因为这样的话,隐层结点就会变得全部一样,体现不出神经网络多层多结点的优越性。
咦~如果层数很多的话,超过三层,那么有个潜规则就是中间的几层的隐节点数一般都是一样大小
隐节点数稍微大点输入结点个数这个是极好的。
下面就是几个步骤
第一步,随机化参数
第二步,前向得到一个结果。
第三步,计算成本函数
第四步,反向传播计算这个theta
第五步,就是用梯度检验,看下梯度有没有写错。
第六步,用一些很厉害的算法来计算出最小化J(theta)之后的theta值是多少。