读google研究员吴军《数学之美》谈对数学的信仰

最新推荐文章于 2021-12-31 22:41:57 发布

ruikoeln

最新推荐文章于 2021-12-31 22:41:57 发布

阅读量762

点赞数

分类专栏： big data math 概率文章标签：数学 R建模

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ruikoeln/article/details/18181581

版权

big data 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 复杂问题简单化

吴在书中给出一个自然语言处理的例子

一个给定次序的句子出现的概率（可能性）

P(S)=P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

这个计算起来太过复杂。如果引入马尔可夫假设，即对任意wn, 其出现概率只与wn-1有关，如此上面的等式可以简化为

P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…
P(wi|wi-1) = P(wi-1,wi)/ P (wi-1)

这个模型效果出奇的好。当然，也可以有二阶或者更高的马尔可夫模型，具体实施的时候情况会复杂一些。但是，无论怎样，基于概率的模型比语言学家的什么规则效果要好的多。由此可见数学的强大。

2 利用余弦定理判断文本的相似性

已知三角的3条边，可以求任意一个角的余弦，公式如下：

$a^2 = b^2 + c^2 - 2bc\cos(\alpha)\,$

如果用向量来表示，则有如下计算两个临边夹角余弦值：

显然，余弦约趋近于1，也就是2个向量的夹角越小，用该向量表征的两则文本约相似。即一个文本中所有次各自出现的次数构成的向量，没有出现则为0。

3 行星轨道，从托勒密地心说到哥白尼于开普勒的日心说

吴军回顾了在这一问题上科学家走过的曲折。他指出：

“一个正确的模型应该在形式上是简单的。

一个正确的模型在刚开始的时候可能还不如一个精雕细琢的错误的模型准确，但是大方向的正确才是重要的。

大量准确的数据对于研发非常重要。

正确的模型也可能受噪音干扰，而显得不准确；这时我们不应该用一种凑合的修正方法来弥补它，而是要找到噪音的根源，这也许能通往重大发现。”

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
读google研究员吴军《数学之美》谈对数学的信仰

1复杂问题简单化吴在书中给出一个自然语言处理的例子一个给定次序的句子出现的概率（可能性）P(S)=P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)这个计算起来太过复杂。如果引入马尔可夫假设，即对任意wn, 其出现概率只与wn-1有关，如此上面的等式可以简化为P(S) = P(w1)P(w2|w1)P(w3|w2)…P(wi|wi-1)…
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。