今天终于把《数学之美》读完了,耗时近一个月,整个读完之后,再一想,似乎回想不起什么。结合正在看的《统计学习方法》,给个总结
现实世界中,并不是所以问题都有解,对于有解的问题,关键在于找准模型,模型越准确,则效果越好,就像是要找出空间中随机分布的一系列点的函数,函数穿过所有点,则拟合很好,反之拟合变弱。拟合好不一定泛化好(对测试数据预测效果),因此往往会做出一定的偏移,用于泛化。
如果得到大量数据,基于统计往往比基于规则更好。因为对于大量数据,规则往往极其复杂,人为添加规则,工作量巨大,而且容易出错。
要做优化,首先要定义一个函数对模型进行衡量(损失函数),接着对比优化前后该衡量值的大小,若混乱程度更小(损失更小、失误率更小),则该优化可以进行选取,否则,不可选取。
不断进行优化,直到处于一个可接受的程度,则优化完毕
对决策树进行优化,就是剪枝,减少深度。
梯度下降,也是对原有模型进行优化
随机梯度下降,只取一点,降低计算量
还有一种梯度下降,先步长更长,后步长更短,能更快,但计算量变大,因为计算二阶导。
对于大数据,布隆过滤器比哈希表更节省内存,不过需要白名单,因为有可能重复。哈希表大概50%利用率,布隆过滤器只需要哈希表的1/8到1/4。
分布式运算,能够利用更多机器同步运算,加快运算速度,但是关键在于将计算进行分布、结果整合。
以前一直不理解动态规划,现