数学之美--数学方法的用途

概率论:涉及概率的地方,如:机器翻译、计算机自动问答、中文分词等。
零概率问题的平滑处理

马尔可夫假设:随机过程中各个状态st的概率分布之与前一个状态St-1有关。符合该假设的随机过程称为马尔可夫过程,也叫马尔可夫链。

隐含马尔可夫模型:

布尔运算:计算机运算非常快,最便宜的微机,1s能进行数十亿以上。可用于索引,如:0000000000000001…,其中1对应的位置可以表示存在等等。

图论:能转化为节点和连接的弧的问题,如:网络爬虫

PageRank算法:排序算法,民主表决式的。

TF-IDF:搜索关键词权重的科学度量,可用于网页和查询的相关性度量

有限状态机:一种特殊的有向图(图论的一种),包括节点和连接节点的有向弧。可用于地址的识别等。

图论算法:动态规划算法、广度优先搜索(BFS)、深度优先搜索(DFS)

余弦定理:可以度量向量间的相似度,向量可用于表示某种事物。如:文中的新闻。故余弦定理可用于分类。计算向量的余弦有技巧,详见文章P134.

各类分类问题本质上是聚类问题

矩阵运算中的奇异值分解(SVD):可用于相关性的计算。相比于余弦定理的分类,具有耗时短的特点,但精度没有余弦定理高。 技巧:对于不大的矩阵(几万乘几万),计算上的数学工具MATLAB就可以计算。对于更大的矩阵(如:上百万乘上百万),奇异值分解的计算量非常大,需要很多台计算机并行处理,其中需要用到奇异值分解的并行算法。

信息指纹:将一个东西(如:文字、语言、图片等信息)对应成一个独特的随机数。可用于集合相同判断(如:网页URL是否相等、盗版抄袭检测、垃圾邮箱判断等)。 信息指纹的计算:1、将信息(字符串)看出一个特殊、很长的整数;2、使用伪随机数产生器(PRNG)将整数转化为特定长度的伪随机数。

常用PRNG算法:梅森旋转算法、

常用的加密伪随机数产生器(CSPRNG):MD5、SHA-1、

相似哈希(Simhash):一种特殊的信息指纹,可用于相似性判定。

通信模型思路–解决噪音干扰的基本思路:
1、从信息源出发,加强通信(编码)自身的抗干扰能力
2、从传输来看,过滤噪音,还原信息
在这里插入图片描述
该种思路可对应任意需要处理噪音,或需要过滤某些东西的情况。如:搜索引擎消除作弊,图片去噪等。控制理论中的消除控制干扰思想也是类似。

最大熵原理:对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知条件,而对未知的情况不要做任何主观假设。这种情况下,概率分布最均匀,预测的风险最小。 一种思考方式:对未知不做假设,满足全部已知条件,预测的风险会最小。

最大熵模型:书P181,成本较高。可以采用简化的模型:线性插值模型P196

香农第一定理:对于一个信息,任何编码的长度都不小于它的信息熵。信息熵见于第6章“信息的度量和作用”。

寻找最大概率的问题有可能变为寻找最短路径的问题,如:P193,用到的方法:隐式马尔科夫链、动态规划算法

思想:简单才美

布隆过滤器:判断一个元素是否在一个集合中。它只需要散列表1/8到1/4的存储大小就能解决相同的问题。它实际是一个很长的二进制向量和一系列随机映射函数。特点:快速、省空间,但有一定的误识别率(很小,见P206)。补救方法是再建立一个小的白名单。
其他方法有:哈希表(Hash Table,也叫散点表),计算机中的集合是用哈希表来存储,优点是快速准确,缺点是耗费存储空间。

贝叶斯网络:马尔可夫链的扩展。相比马尔可夫链,可以更准确的描述事物之间的相关性。下图说明:心血管疾病由高血脂引起的概率,高血脂由家族病史引起的概率。
在这里插入图片描述
贝叶斯网络可以用于分类。可用于分类的方法可用在很多场景下:图像处理,文字处理,支持决策等。

条件随机场:隐含马尔可夫模型的一种扩展。在这里插入图片描述
可用于预测,分类等。如:文法分析器(分类器),预测犯罪(这项成就被《时代》周刊评为年度最优秀发明之一)

维特比算法(Viterbi Algorithm):图论的一种算法,动态规划算法。维特比发明,其创办了高通公司(Qualcomm)。
能够解决篱笆网络(Lattice)这种有向图的最短路径问题,凡是使用马尔可夫模型描述的问题都可以用该算法解码。在这里插入图片描述

期望最大化算法(EM算法):可用于分类。

逻辑回归模型:将一个事件出现的概率逐渐适应到一条逻辑曲线(Logistic Curve,其值域在(0,1)之间)上。训练最大熵模型的IIS、GIS等方法也可以训练逻辑回归函数参数。
在这里插入图片描述
可用于预测。具体:预估搜索广告的点击率、生物统计。

分治算法(Divide-and-Conquer):基本原理是将一个复杂的问题分解成若干个简单的子问题进行解决。然后,对子问题结果进行合并,得到原有的解。
将一个大矩阵分解为小矩阵求算的方法。

归并排序(Merge Sort):对一个长度为N的数组排序,冒泡排序复杂度O(N2),归并排序为O(N*logN)。归并排序:将数组一分为2,一直分到只有2个元素。排好序后,在归并到一起。

人工神经网络:模型简单,用处很大。用于模式分类,继而可以用于语言识别,机器翻译,人脸图像识别,癌细胞识别,疾病预测,股市预测等等。非线性函数选取的合适时,分类能力等价于最大熵模型。

大多数与“智能”有点关系的问题,都可以归结为:在多维空间进行模式分类的问题。

欧几里得距离:∑(y(w)-y)2,可用于表示两事物间的差异,如:神经网络得到的输出值和实际训练数据的输出值之间的差距。

梯度下降法(Gradient Descent):解决最优化问题的常用方法,通俗讲,就是找“最大值“、”最小值”的常用方法。原理:向最陡的地方走一步。

随机梯度下降法(Stochastic Gradient Descent):这种算法在计算成本函数时,不需要像梯度下降法那样对所有的样本都计算一遍,而只需要随机抽取少量的数据来计算成本函数。优缺点:这样可以大大降低计算量,当然会牺牲一点准确性。

L-BFGS:原理和随机梯度法相似。优缺点:可以根据离最后目标的“远近”调整每次迭代的步长,这样经过很少次迭代就能收敛。而且更易并行化实现。但每次迭代的计算量会增加一点。

大数据:数据量大,完备性,多维度。相比于传统统计方法:成本低,准确性高,多维度。

数据要具有足够的”统计量”和“代表性”。

切比雪夫不等式:可以用来确定需要采集多少样本才能得到一个误差小于5%(即,置信度大于95%)的准确估计

今天的IT行业,某种程度上已经是数据的竞争了。

常见问题最佳算法复杂度:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值