数学之美2
Medlar Tea
一杯枸杞茶
展开
-
【读书笔记】数学之美2--自然语言处理
20.不要把鸡蛋放到一个篮子里--谈谈最大熵模型在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。因为如果你把大多数钱放在一个项目上,它一亏损则损失就十分之大,若平均着放入多个项目,则风险就会降到最小。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理。假设w3是要预测的词(王小波或者王晓波),w1和w2是它的前两个字(比如说它们分别是“出版”和“小说家”,),...原创 2019-11-06 20:34:09 · 281 阅读 · 0 评论 -
【读书笔记】数学之美2-搜索引擎
8.简单之美——布尔代数和搜索引擎建立一个搜索引擎大致需要做的几件事情:自动下载尽可能多的网页; 建立快速有效的索引; 根据相关性对网页进行公平准确的排序。这就是搜索的“道”。关键词=布尔运算(词1,词2,词3);接着判断词i是否在文献中,以得到一串二进制数;再根据几个词的布尔关系做布尔运算;最终便得到满足要求的文献。由于索引之大,一开始是依靠分布式的方式存储到不同的服务...原创 2018-10-29 16:44:20 · 971 阅读 · 0 评论 -
【读书笔记】数学之美2--从规则到统计
这本书重于“道”,所以不应该着眼于其中的“术”。悟“道”才可以在今后的研究生涯中笃定地前行。目录 1.文字和语言vs数字和信息1.1 信息1.2 文字和数字1.3 小结2.自然语言处理3.统计语言模型3.1 用数学的方法描述语言规律3.2 统计语言模型的工程诀窍3.2.1 高阶语言模型3.2.2 模型的训练、零概率问题和平滑方法3.2.3 语料的...原创 2018-10-27 19:36:44 · 579 阅读 · 0 评论 -
【读书笔记】数学之美2--分类问题
14.余弦定理与新闻的分类14.1 新闻的特征向量新闻是传递信息的,而词是信息的载体,新闻的信息和词的语义是练习在一起的。而新闻中的词的权重值都有所不同,所以新闻的特征向量可以这样计算:对于一篇新闻的所有实词,计算出它们的TF-IDF值;把这些值按词汇表顺序排列,就得到一个向量。14.2 向量距离的度量两个向量是否相似,可以用两向量之间的余弦值来衡量: (14.1)...原创 2018-11-02 10:55:08 · 147 阅读 · 0 评论 -
【读书笔记】数学之美2--信息指纹
16.信息指纹及其应用原来的Hash Table是直接存储的,而且存储效率只有50%,十分耗费存储空间。而通过伪随机数产生器算法,任何一段信息(包括文字、语音、视频、图片等),都可以对应一个不太长的随机数,作为区别这段信息和其他信息的指纹。如此所需要的存储量就大大减小了。如图所示:常见的算法有:平方取中法、MD5、SHA-1等。 有了这个信息指纹,我们就能够判别是否有重复、是否...原创 2018-11-07 09:07:25 · 197 阅读 · 0 评论