数学之美--数学方法的用途

最新推荐文章于 2023-12-09 21:35:38 发布

公子￥小白

最新推荐文章于 2023-12-09 21:35:38 发布

阅读量228

点赞数

分类专栏：数学之美总结

本文链接：https://blog.csdn.net/qq_25635285/article/details/104736976

版权

数学之美同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

总结

1 篇文章 0 订阅

订阅专栏

概率论：涉及概率的地方，如：机器翻译、计算机自动问答、中文分词等。
零概率问题的平滑处理

马尔可夫假设：随机过程中各个状态s_t的概率分布之与前一个状态S_t-1有关。符合该假设的随机过程称为马尔可夫过程，也叫马尔可夫链。

隐含马尔可夫模型：

布尔运算：计算机运算非常快，最便宜的微机，1s能进行数十亿以上。可用于索引，如：0000000000000001…，其中1对应的位置可以表示存在等等。

图论：能转化为节点和连接的弧的问题，如：网络爬虫

PageRank算法：排序算法，民主表决式的。

TF-IDF：搜索关键词权重的科学度量，可用于网页和查询的相关性度量

有限状态机：一种特殊的有向图（图论的一种），包括节点和连接节点的有向弧。可用于地址的识别等。

图论算法：动态规划算法、广度优先搜索（BFS）、深度优先搜索（DFS）

余弦定理：可以度量向量间的相似度，向量可用于表示某种事物。如：文中的新闻。故余弦定理可用于分类。计算向量的余弦有技巧，详见文章P134.

各类分类问题本质上是聚类问题

矩阵运算中的奇异值分解（SVD）：可用于相关性的计算。相比于余弦定理的分类，具有耗时短的特点，但精度没有余弦定理高。技巧：对于不大的矩阵（几万乘几万），计算上的数学工具MATLAB就可以计算。对于更大的矩阵（如：上百万乘上百万），奇异值分解的计算量非常大，需要很多台计算机并行处理，其中需要用到奇异值分解的并行算法。

信息指纹：将一个东西（如：文字、语言、图片等信息）对应成一个独特的随机数。可用于集合相同判断（如：网页URL是否相等、盗版抄袭检测、垃圾邮箱判断等）。信息指纹的计算：1、将信息（字符串）看出一个特殊、很长的整数；2、使用伪随机数产生器（PRNG）将整数转化为特定长度的伪随机数。

常用PRNG算法：梅森旋转算法、

常用的加密伪随机数产生器（CSPRNG）：MD5、SHA-1、

相似哈希（Simhash）：一种特殊的信息指纹，可用于相似性判定。

通信模型思路–解决噪音干扰的基本思路：
1、从信息源出发，加强通信（编码）自身的抗干扰能力
2、从传输来看，过滤噪音，还原信息
在这里插入图片描述
该种思路可对应任意需要处理噪音，或需要过滤某些东西的情况。如：搜索引擎消除作弊，图片去噪等。控制理论中的消除控制干扰思想也是类似。

最大熵原理：对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知条件，而对未知的情况不要做任何主观假设。这种情况下，概率分布最均匀，预测的风险最小。一种思考方式：对未知不做假设，满足全部已知条件，预测的风险会最小。

最大熵模型：书P181，成本较高。可以采用简化的模型：线性插值模型P196

香农第一定理：对于一个信息，任何编码的长度都不小于它的信息熵。信息熵见于第6章“信息的度量和作用”。

寻找最大概率的问题有可能变为寻找最短路径的问题，如：P193，用到的方法：隐式马尔科夫链、动态规划算法

思想：简单才美

布隆过滤器：判断一个元素是否在一个集合中。它只需要散列表1/8到1/4的存储大小就能解决相同的问题。它实际是一个很长的二进制向量和一系列随机映射函数。特点：快速、省空间，但有一定的误识别率（很小，见P206）。补救方法是再建立一个小的白名单。
其他方法有：哈希表（Hash Table，也叫散点表），计算机中的集合是用哈希表来存储，优点是快速准确，缺点是耗费存储空间。

贝叶斯网络：马尔可夫链的扩展。相比马尔可夫链，可以更准确的描述事物之间的相关性。下图说明：心血管疾病由高血脂引起的概率，高血脂由家族病史引起的概率。
在这里插入图片描述
贝叶斯网络可以用于分类。可用于分类的方法可用在很多场景下：图像处理，文字处理，支持决策等。

条件随机场：隐含马尔可夫模型的一种扩展。在这里插入图片描述
可用于预测，分类等。如：文法分析器（分类器），预测犯罪（这项成就被《时代》周刊评为年度最优秀发明之一）

维特比算法（Viterbi Algorithm）：图论的一种算法，动态规划算法。维特比发明，其创办了高通公司（Qualcomm）。
能够解决篱笆网络（Lattice）这种有向图的最短路径问题，凡是使用马尔可夫模型描述的问题都可以用该算法解码。在这里插入图片描述

期望最大化算法（EM算法）：可用于分类。

逻辑回归模型：将一个事件出现的概率逐渐适应到一条逻辑曲线（Logistic Curve，其值域在（0,1）之间）上。训练最大熵模型的IIS、GIS等方法也可以训练逻辑回归函数参数。
在这里插入图片描述
可用于预测。具体：预估搜索广告的点击率、生物统计。

分治算法（Divide-and-Conquer）：基本原理是将一个复杂的问题分解成若干个简单的子问题进行解决。然后，对子问题结果进行合并，得到原有的解。
将一个大矩阵分解为小矩阵求算的方法。

归并排序（Merge Sort）：对一个长度为N的数组排序，冒泡排序复杂度O（N²），归并排序为O（N*log^N）。归并排序：将数组一分为2，一直分到只有2个元素。排好序后，在归并到一起。

人工神经网络：模型简单，用处很大。用于模式分类，继而可以用于语言识别，机器翻译，人脸图像识别，癌细胞识别，疾病预测，股市预测等等。非线性函数选取的合适时，分类能力等价于最大熵模型。

大多数与“智能”有点关系的问题，都可以归结为：在多维空间进行模式分类的问题。

欧几里得距离：∑（y(w)-y）²，可用于表示两事物间的差异，如：神经网络得到的输出值和实际训练数据的输出值之间的差距。

梯度下降法（Gradient Descent）：解决最优化问题的常用方法，通俗讲，就是找“最大值“、”最小值”的常用方法。原理：向最陡的地方走一步。

随机梯度下降法（Stochastic Gradient Descent）：这种算法在计算成本函数时，不需要像梯度下降法那样对所有的样本都计算一遍，而只需要随机抽取少量的数据来计算成本函数。优缺点：这样可以大大降低计算量，当然会牺牲一点准确性。

L-BFGS：原理和随机梯度法相似。优缺点：可以根据离最后目标的“远近”调整每次迭代的步长，这样经过很少次迭代就能收敛。而且更易并行化实现。但每次迭代的计算量会增加一点。

大数据：数据量大，完备性，多维度。相比于传统统计方法：成本低，准确性高，多维度。

数据要具有足够的”统计量”和“代表性”。

切比雪夫不等式：可以用来确定需要采集多少样本才能得到一个误差小于5%（即，置信度大于95%）的准确估计

今天的IT行业，某种程度上已经是数据的竞争了。

常见问题最佳算法复杂度：
在这里插入图片描述

公子￥小白

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数学之美--数学方法的用途

概率论：涉及概率的地方，如：机器翻译、计算机自动问答、中文分词等。零概率问题的平滑处理马尔可夫假设：随机过程中各个状态st的概率分布之与前一个状态St-1有关。符合该假设的随机过程称为马尔可夫过程，也叫马尔可夫链。隐含马尔可夫模型：布尔运算：计算机运算非常快，最便宜的微机，1s能进行数十亿以上。可用于索引，如：0000000000000001…，其中1对应的位置可以表示存在等等。图论：能...
复制链接

扫一扫