《数学之美》笔记

最新推荐文章于 2019-05-04 14:30:10 发布

旃檀峰

最新推荐文章于 2019-05-04 14:30:10 发布

阅读量342

点赞数

本文链接：https://blog.csdn.net/qq_33503026/article/details/88981750

版权

1. 语言-->数据-->信息，罗塞塔石碑，进制，圣经抄写验证码
2.计算机处理语言，1956年夏，AI,达特茅斯会议，语言分析，基础层，认知层，应用层，文法规则-->统计，通信系统+隐马模型
3.统计语言模型，词排序，马尔可夫（俄），二元模型，多元模型，语料库，概率估计，阈值，相对频度，未发生概率，平滑方法
4.分词，查字典方法，最长，歧义，维特比算法，下句概率，分词一致性，词的颗粒度和层次，越界型错误，覆盖型错误，颗粒度问题
5.隐含马尔可夫模型，雅各布森，通信六要素（发送者，接收者，信息，信道，上下文，编码），观测信号-->发送信息，鲍姆韦尔奇，马尔可夫链， $p(s1,s2,s3...,o1,o2,o3...) = \prod (t)(s(t)|s(t-1))*p(p(t)|s(t))$ ，语言识别--声学模型，机器翻译--翻译模型，拼写校正--纠正模型，给定模型-->序列概率，模型+序列-->状态序列，观测数据-->参数6.
6.信息熵，变量的不确定性越大，熵也越大。知道的信息越多，随机事件的不确定性越少，条件熵，联合概率分布，三元模型好于二元模型。信息的作用在于消除不确定性，自然语言处理的大量问题，就是寻找相关的信息。互信息，相对熵

{

2个相同的函数，相对熵=0

相对熵越大，差异越大，反之越小

对于概率分布或者概率密度函数，如取值均>0,相对熵可以度量两个随机分布差异性

}

7.贾里尼克，十年，CLSP（Center for Language and Speech Processing）(约翰·霍普金斯大学)
8.布尔代数(and，or，not)-->索引（关键字）-->搜索
9.图论，哥尼斯堡的七座桥，广度优先搜索BFS，深度优先搜索DFS，网络爬虫（马休·格雷，1993），图能遍历完回到原点，每个顶点的度为偶数，爬虫工程以BFS为主，DFS为辅，避免多次握手，降低效率。URL表-->分工+批处理
10.pagerank，拉里·佩奇，谢尔盖·布林，二维矩阵初始化，系数矩阵计算，网页Y的排名取决于指向于指向Y的其他网页的权重之和
11.搜索引擎质量，（1）完备的索引，（2）网页质量度量，（3）用户偏好，（4）查询相关性

TF: Term Frequency 词频，词在网页中的频率

IDF: Inverse Document Frequency 逆文本频率指数，为log(D/D(w))，D为全部网页数，D(w)为w出现的网页数

停止词权重为0，IDF由斯巴克·琼斯提出，TF-IDF计算网页相关性

12.有限状态机是一个特殊的有向图，基于概率的有限状态机和离散的马尔可夫链基本等效，动态规划算法，有限状态机是一个五元组（ $\sum ,S,S{_0{}},\delta ,f$ ）, $\sum$ 为输入符号的集合，S为非空的有限状态集合， $S_{0}$ 为特殊状态，起始状态， $\delta$ 为从空间S* $\sum$ 到S的映射函数， $\delta$ ：S* $\sum$ ->S，f为终止状态。
13.AK-47 卡拉什尼科夫（苏联） Google AK-47 阿米特·辛格，“在工程上简单实用的方法最好”，“先帮助用户解决80%的问题，再慢慢解决剩下的20%问题”
14.由词TF-IDF组成的向量，向量距离的度量，计算两个向量的夹角，余弦定理， $cos\Theta =(x1y1+x2y2+...+xnyn)/\sqrt{x1^{2}+x2^{2}+..+xn^{2}}+\sqrt{y1^{2}+y2^{2}+..+yn^{2}}$ ，余弦越小越相近，优化（1）分母部分无需重复计算，（2）只考虑非零元素，（3）去掉虚词，（4）位置加权（首末）

15.文本分类矩阵，一次把所有文本相关性计算出来，利用矩阵运算中的奇异值分解 A = 【a11....a1j....ain/ai1...aij...ain/am1...amj...amn】aij代表字典中第j个词在第i篇文章中出现的加权词频（比如TF-IDF值）。A分为三个矩阵X，B，Y，X的行表示有多少词，列表示多少语义类，值代表词与某个语义类相关度，Y是文本的分类结果，每一类对应一篇文本，每一行对应一个主题，值代表文本与主题的相关度，B矩阵表示词的类和文章的类之间的相关性，行为词的语义类列为主题。

张智威，奇异值分解的并行算法，先进行奇异值分解，再利用计算向量余弦的方法，速度快，结果好

16.信息指纹，存储网址，伪随机数生成器算法生成信息指纹，梅森旋转算法，集合相同的判定，视频反盗版，关键帧对比，相似哈希，比较网页相似性，相差越小，网页相似度越高。
17.密码学，RSA原理：（1）找两个很大的素数P和Q，越大越好，计算P*Q，（2）N=P*Q，(3)M=(P-1)*(Q-1)，（4）找一个整数D，使得E*D除以M余1，即E*DmodM=1，E为公钥，D为私钥，用于解密用X^EmodN = Y，用Y^DmodN = X ，公开密钥的好处：简单，可靠，灵活。
18.搜索引擎反作弊，关键是消除噪音（1）网页排名作弊（2）不准确信息方法：（1）从信息源出发，加强通信自身的抗干扰能力（2）从传输来看，过滤掉噪音，还原信息
19.（1）一个正确的数学模型应当在形式上是简单的（2）一个正确的模型一开始还不如一个精雕细琢过的错误模型来的准确（3）大量准确的数据对研发很重要（4）正确的模型也可能受噪音干扰，而显得不准确，要找到噪音的根源
20.最大熵原理：保留全部的不确定性，将风险降到最小最大熵模型训练：（1）GIS算法，达诺奇，特克利夫，是期望值最大化算法（2）达拉皮垂孪生兄弟，IIS算法
21.香农第一定理：对于一个信息，任何编码的长度都不应该小于它的信息熵
22.自然语言处理大师马库斯，放养，标准语料库柯林斯：追求完美，博士论文，文法分析器布莱尔：简单才美，基于变换规则的机器学习方法
23.布隆过滤器，伯顿·布隆，二进制向量，随机映射函数，错误率，白名单，速度快
24.贝叶斯网络，每一个状态只跟与其直接相连的状态相关，而跟与它间接相连的状态没有直接关系，马尔可夫链是特殊的贝叶斯网络，用基于统计的模型分析文本，从中抽取概念，分析主题-->主题模型
25.文法分析，布朗大学，尤金·查尼阿克，统计模型P(Alprefix)，A->行动，句子前缀prefix->词+语法成分，算法和句子长度成正比，条件随机场->概率图模型，条件随机场-->用于预测的统计模型
26.维特比+厄文·雅各布-->高通公司，3G移动通信标准。维特比算法-->动态规划算法，CDMA（码分多路），拉玛尔，扩频传输（抗干扰，难截获，带宽利用充分）
27.期望最大化算法（EM算法），自动收敛，聚类-->划分结果-->新聚类，循环
28.预测广告-->逻辑回归模型（Logistic Regression） $Z=B_{0}+B_{1}X_{1}+B_{2}X_{2}+...+B_{k}X_{k}$ ，xi为变量，代表影响概率预测的各种信息，Bi被称为回归参数，表示相应变量的重要性，Bo是一个特殊参数，保证稳定的概率分布
29.云计算，分治算法，MapReduce，以资源换时间
30.人工神经网络，图-->神经网络，神经元（节点）+神经（有向弧），节点分层，每一层节点可以通过有向弧指向上一层节点，但是同一层节点之间没有弧相互连接，不能越层连接
31.数据的重要性，足够数据，切比雪夫（俄），网页搜索的质量==》数据多，有代表性，算法好，收集点击数据。