《数学之美》读书笔记(2)

上篇写了《数学之美》的第一到十一章,这篇把后面几章写完。后面的内容比较广泛而且很多都是很熟悉的内容。让我感觉眼前一亮的是用SVD做新闻分类。SVD的物理意义以前都没有仔细的想过。

第12章 地图和本地搜索的最基本技术 — 有限状态机和动态规划
本章要点:
有限状态机:地址分析;(∑,s,s0,δ,f),∑输入符号,s状态集合,s0起始状态,δ表示s*∑到s的映射,f终止状态。状态转移概率变成加权有限状态机WFST,概率最大的路径即为结果。可以用来做语音识别。用动态规划求解。
动态规划:导航。

第13章 Google AK-47的设计者 — 阿米特 · 辛格博士
本章要点:
简单有效可解释的模型才是好的。先解决80%的问题,再慢慢解决20%的问题。

第14章 余弦定理和新闻的分类
本章要点:
新闻的分类:词的TF-IDF值,自底向上不断合并。
tip:|a|可以存储,非零元素才有用,删除虚词。主题显然和位置有关,加入位置加权。

第15章 矩阵运算和文本处理中的两个分类问题
本章要点:
对矩阵进行SVD分解的结果的物理意义:A=XBY。X表示对词分类的结果,行表示一个词,列表示语义类,矩阵元素表示词和语音类的相关系数。Y表示对文本分本的结果,列表示文章,行表示文章分类。B表示语义类和文本类的相关性。2007年解决了SVD的并行计算。
SVD的优点,一次性解决,时间段内存大。
先SVD粗分类,再用余弦迭代精确细分类。

第16章 信息指纹及其应用
本章要点:
HASH。随机挑选,分片,比较,基本相同,查重。
youtube视频查重,关键帧的提取(视频连贯,变化不大)和特征提取;广告分成策略,不给非原创视频广告分成。
SimHash,扫描,收缩,+-权重

第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
本章要点:
公钥,私钥

第18章 闪光的不一定是金子 — 谈谈搜索引擎反作弊问题
本章要点:
作弊行为有重估关键词,小字颜色掩盖;PageRank,空网页链接。
和去噪行为类似:1.编码抗干扰;2.过滤噪声
通信中混入噪声 in->+噪声->解卷积->in
卖链接的预先相关性很高,完全不想管的白噪声很难去除

第19章 谈谈数学模型的重要性
本章要点:
模型要简单才有效

第20章 不要把鸡蛋放到一个篮子里 — 谈谈最大熵模型
本章要点:
不知道得事情不做先验假设,做均匀分布。
EM算法求解(GIS),改进IIS

第21章 拼音输入法的数学原理
本章要点:
拼音输入法的优点:1.不需要专门的学习,2.找每个键都很短,3.容错性高
一共有6700个常用汉字,键盘的信息熵log26=2.1,常用汉字的信息上在10bit之内,词的信息熵8bit。关键是训练语言模型,找字,动态规划,上下文p(w|w1,w2)
训练个性化语言模型:
1.语言模型主题分类
2.每个类找到特征向量(TF-IDF)X1,X2,…,X100
3.统计莫个人的输入文本,得到书如此的特征向量Y
4.计算Y和X1,…,X100的预先
5.选前k个距离最近的文本作为训练数据
6.得到语言模型M1
大部分情况下M1比M0好,对于相对边批的内容M1不如M0,M1训练数据比M0小一两个量级。
最大熵模型,一般简化为线性插值模型P(wi|wi-1) = lamda(wi-1)P0(wi|wi-1) + (1 - lamda(wi-1))P1(wi|wi-1)。不最大熵略差,先解决80%

第22章 自然语言处理的教父马库斯和他的优秀弟子们

第23章 布隆过滤器
本章要点:
地址->指纹信息->随机找8个位置置1
查找的时候对应的位置是否全为1
冲突的地址设置白名单

第24章 马尔可夫链的扩展 — 贝叶斯网络
本章要点:
结构训练<->参数训练

第25章 条件随机场和句法分析
本章要点:
隐藏状态和观察状态之间的关系

第26章 维特比和他的维特比算法
本章要点:
最短路算法

第27章 再谈文本自动分类问题 — 期望最大化算法

第28章 逻辑回归和搜索广告
本章要点:
1.出价高的放前面(卖假药这种暴利产业的就会在前面,影响搜索引擎本身行业的发展),基于错误假设认为出价高的企业有能力用户体验好
2.点击率*出价排序,这样单位点击率的效率最高
训练时数据量过少而且和位置有关,所以用逻辑回归来拟合各个因素的影响

第29章 各个击破算法和Google云计算的基础
本章要点:
分治算法,Map(分)Reduce(合)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值