文章目录
1.1 Feature Scaling特征缩放
1.1 定义:
可以让gradient descent运行的更快。
1.2 确认feature和对应的parameter的值:
- 当feature的范围比较大的时候,它对应的parameter值应该比较小。
1.3 rescale的原因
- 如图,parameter取值像上图一样,我们做gradient descent时会很慢。通过rescaling可以让cost function接近圆形,使得gradient descent更加的快捷。
1.4 rescaling的3种方式:
- feature scaling-- [0,1]
- mean normalization
- z-score normalization
1.5 总结:范围太大/小都需要rescale。![请添加图片描述](https://i-blog.csdnimg.cn/blog_migrate/7abdbae06a28e4077ed0638b02145090.png)
2.判断梯度下降是否收敛
- 一个适当的alpha,会使得在每一个iteration之后,J(w,b)都会下降。
- 如果J(w,b)上升,证明alpha选的不合适。
- J(w,b) 在400次iteration之后,learning curve开始趋于水平。这意味着,J(w,b)很可能converged by 400 iterations。
- 自动收敛检测automatic convergence test:如果每一个iteration后,J(w,b)的值下降的非常小(<=epsilon),则可以说他convergence了。
3.如何设置学习率
- 如果J(w,b) 时上时下 / 持续上升,要么有code错误,要么alpha太大了。
- 先将alpha设置为一个非常小的数,看一下J(w,b) 是不是在每一个iteration后都下降。如果不下降,则code有错误。
- 但如果alpha设置的太小了,要找到convergence要很久。
- 从很小的alpha开始,J(w,b)持续下降,则缓慢提高alpha。
4.特征工程
- 定义: 使用直觉,去设计一个新的feature,通过转移/结合原有的features。
- 找到最合适的features:
5. 多项式回归
- 可以选择x^2 / x^ 3 / x^ 0.5