《数学之美》笔记

  • 1. 语言-->数据-->信息,罗塞塔石碑,进制,圣经抄写验证码

  • 2.计算机处理语言,1956年夏,AI,达特茅斯会议,语言分析,基础层,认知层,应用层,文法规则-->统计,通信系统+隐马模型
  • 3.统计语言模型,词排序,马尔可夫(俄),二元模型,多元模型,语料库,概率估计,阈值,相对频度,未发生概率,平滑方法
  • 4.分词,查字典方法,最长,歧义,维特比算法,下句概率,分词一致性,词的颗粒度和层次,越界型错误,覆盖型错误,颗粒度问题
  • 5.隐含马尔可夫模型,雅各布森,通信六要素(发送者,接收者,信息,信道,上下文,编码),观测信号-->发送信息,鲍姆韦尔奇,马尔可夫链, p(s1,s2,s3...,o1,o2,o3...) = \prod (t)(s(t)|s(t-1))*p(p(t)|s(t)),语言识别--声学模型,机器翻译--翻译模型,拼写校正--纠正模型,给定模型-->序列概率,模型+序列-->状态序列,观测数据-->参数6.
  • 6.信息熵,变量的不确定性越大,熵也越大。知道的信息越多,随机事件的不确定性越少,条件熵,联合概率分布,三元模型好于二元模型。信息的作用在于消除不确定性,自然语言处理的大量问题,就是寻找相关的信息。互信息,相对熵

       {

       2个相同的函数,相对熵=0

       相对熵越大,差异越大,反之越小

       对于概率分布或者概率密度函数,如取值均>0,相对熵可以度量两个随机分布差异性

       }

  • 7.贾里尼克,十年,CLSP(Center for Language and Speech Processing)(约翰·霍普金斯大学)
  • 8.布尔代数(and,or,not)-->索引(关键字)-->搜索
  • 9.图论,哥尼斯堡的七座桥,广度优先搜索BFS,深度优先搜索DFS,网络爬虫(马休·格雷,1993),图能遍历完回到原点,每个顶点的度为偶数,爬虫工程以BFS为主,DFS为辅,避免多次握手,降低效率。URL表-->分工+批处理
  • 10.pagerank,拉里·佩奇,谢尔盖·布林,二维矩阵初始化,系数矩阵计算,网页Y的排名取决于指向于指向Y的其他网页的权重之和
  • 11.搜索引擎质量,(1)完备的索引,(2)网页质量度量,(3)用户偏好,(4)查询相关性

        TF: Term Frequency 词频,词在网页中的频率

        IDF:  Inverse Document Frequency 逆文本频率指数,为log(D/D(w)),D为全部网页数,D(w)为w出现的网页数

        停止词权重为0,IDF由斯巴克·琼斯提出,TF-IDF计算网页相关性

  • 12.有限状态机是一个特殊的有向图,基于概率的有限状态机和离散的马尔可夫链基本等效,动态规划算法,                               有限状态机是一个五元组(\sum ,S,S{_0{}},\delta ,f),\sum为输入符号的集合,S为非空的有限状态集合,S_{0}为特殊状态,起始状态,\delta为从空间S*\sum到S的映射函数,\delta:S*\sum->S,f为终止状态。
  • 13.AK-47 卡拉什尼科夫(苏联)                                                                                                                                                      Google AK-47 阿米特·辛格,“在工程上简单实用的方法最好”,“先帮助用户解决80%的问题,再慢慢解决剩下的20%问题”
  • 14.由词TF-IDF组成的向量,向量距离的度量,计算两个向量的夹角,余弦定理,cos\Theta =(x1y1+x2y2+...+xnyn)/\sqrt{x1^{2}+x2^{2}+..+xn^{2}}+\sqrt{y1^{2}+y2^{2}+..+yn^{2}},余弦越小越相近,                          优化(1)分母部分无需重复计算,(2)只考虑非零元素,(3)去掉虚词,(4)位置加权(首末)
  • 15.文本分类矩阵,一次把所有文本相关性计算出来,利用矩阵运算中的奇异值分解                                                                   A = 【a11....a1j....ain/ai1...aij...ain/am1...amj...amn】aij代表字典中第j个词在第i篇文章中出现的加权词频(比如TF-IDF值)。A分为三个矩阵X,B,Y,X的行表示有多少词,列表示多少语义类,值代表词与某个语义类相关度,Y是文本的分类结果,每一类对应一篇文本,每一行对应一个主题,值代表文本与主题的相关度,B矩阵表示词的类和文章的类之间的相关性,行为词的语义类列为主题。

       张智威,奇异值分解的并行算法,先进行奇异值分解,再利用计算向量余弦的方法,速度快,结果好

  • 16.信息指纹,存储网址,伪随机数生成器算法生成信息指纹,梅森旋转算法,集合相同的判定,视频反盗版,关键帧对比,相似哈希,比较网页相似性,相差越小,网页相似度越高。
  • 17.密码学,RSA原理:(1)找两个很大的素数P和Q,越大越好,计算P*Q,(2)N=P*Q,(3)M=(P-1)*(Q-1),(4)找一个整数D,使得E*D除以M余1,即E*DmodM=1,E为公钥,D为私钥,用于解密                                                                       用X^EmodN = Y,用Y^DmodN = X ,公开密钥的好处:简单,可靠,灵活。
  • 18.搜索引擎反作弊,关键是消除噪音(1)网页排名作弊(2)不准确信息                                                                                     方法:(1)从信息源出发,加强通信自身的抗干扰能力(2)从传输来看,过滤掉噪音,还原信息
  • 19.(1)一个正确的数学模型应当在形式上是简单的   (2)一个正确的模型一开始还不如一个精雕细琢过的错误模型来的准确(3)大量准确的数据对研发很重要(4)正确的模型也可能受噪音干扰,而显得不准确,要找到噪音的根源
  • 20.最大熵原理:保留全部的不确定性,将风险降到最小                                                                                                                 最大熵模型训练:(1)GIS算法,达诺奇,特克利夫,是期望值最大化算法 (2)达拉皮垂孪生兄弟,IIS算法
  • 21.香农第一定理:对于一个信息,任何编码的长度都不应该小于它的信息熵
  • 22.自然语言处理大师马库斯,放养,标准语料库                                                                                                                             柯林斯:追求完美,博士论文,文法分析器                                                                                                                                 布莱尔:简单才美,基于变换规则的机器学习方法
  • 23.布隆过滤器,伯顿·布隆,二进制向量,随机映射函数,错误率,白名单,速度快
  • 24.贝叶斯网络,每一个状态只跟与其直接相连的状态相关,而跟与它间接相连的状态没有直接关系,马尔可夫链是特殊的贝叶斯网络,用基于统计的模型分析文本,从中抽取概念,分析主题-->主题模型
  • 25.文法分析,布朗大学,尤金·查尼阿克,统计模型P(Alprefix),A->行动,句子前缀prefix->词+语法成分,算法和句子长度成正比,条件随机场->概率图模型,条件随机场-->用于预测的统计模型
  • 26.维特比+厄文·雅各布-->高通公司,3G移动通信标准。维特比算法-->动态规划算法,CDMA(码分多路),拉玛尔,扩频传输(抗干扰,难截获,带宽利用充分)
  • 27.期望最大化算法(EM算法),自动收敛,聚类-->划分结果-->新聚类,循环
  • 28.预测广告-->逻辑回归模型(Logistic Regression)Z=B_{0}+B_{1}X_{1}+B_{2}X_{2}+...+B_{k}X_{k},xi为变量,代表影响概率预测的各种信息,Bi被称为回归参数,表示相应变量的重要性,Bo是一个特殊参数,保证稳定的概率分布
  • 29.云计算,分治算法,MapReduce,以资源换时间
  • 30.人工神经网络,图-->神经网络,神经元(节点)+神经(有向弧),节点分层,每一层节点可以通过有向弧指向上一层节点,但是同一层节点之间没有弧相互连接,不能越层连接
  • 31.数据的重要性,足够数据,切比雪夫(俄),网页搜索的质量==》数据多,有代表性,算法好,收集点击数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值