《数学之美》读书笔记2

原创 2016年08月28日 14:44:11

关于文本分类,以新闻分类为例。

可以利用上一篇中提到的用于计算网页和查询相关性的TF-IDF来构造特征向量,对于一篇新闻中的所有实词,计算出它们的TF-IDF来构造特征向量。对于一篇新闻中的所有实词,计算出它们的TF-IDF值,把这些值按照对应的实词在词汇表中的位置依次排序,就得到一个向量,用这个向量来代表这篇新闻。用余弦定理来计算两篇新闻之间的相似度,余弦值越小表示两篇新闻越相似。

分类方法:
1.利用事先设定好的类别对新的文本进行分类,假定我们已知一些新闻类别的特征向量X1,X2,……,Xk,那么对于任何一个要被分类的新闻Y,很容易计算出它和各类新闻特征向量的余弦相似性,并将其归入它该去的那一类。
2.自底向上不断合并的方法
<1>计算所有新闻之间两两的余弦相似性,把相似性大于一个阈值的新闻合并成一个小类。
<2>把每个小类中所有的新闻作为一个整体,计算小类的特征向量,再计算小类之间两两的余弦相似性,然后合并成大一点的小类。以此类推,直到迭代结束。
3.K-means算法
<1>随机挑选k个点,作为起始的位置C1(0),C2(0),……,Ck(0)。
<2>计算所有点到这些聚类中心的距离,将这些点归到最近的一类中。
<3>重新计算每一类的中心(最简单的方法是取均值),新的聚类中心和原先的相比会有一个位移。
<4>重复上述过程,直到每次新的中心和旧的中心之间的偏移非常非常小,即过程收敛。

EM算法(期望最大化算法)
在一般性的问题中,如果有非常多的观测数据,类似上面的方法,让计算机不断迭代来学习一个模型。首先,根据现有模型,计算各个观测数据输入到模型中的结果,这个过程称为期望值计算过程(Expectation),或E过程。接下来,重新计算模型参数,以最大化期望值,这个过程称之为最大化过程(Maximization),或M过程。

版权声明:本文为博主原创文章,未经博主允许不得转载。

组合数学读书笔记排列与组合(2)多重集的排列与组合

多重集的排列 如果S是一个多重集,那么S的一个r-排列是S的r个元素的一个有序的排放。 定理1 令S是一个多重集,它有k个不同的类型元素,每一个元素有无限重复次数,那么S的r-排列的个数为k^...

极简微积分发展史——《数学是什么》读书笔记(2)

乐乐老师/文人类社会进步的车轮滚滚向前,在前进的过程中,思想变革与技术革新总是同步进行。历史上最恢宏的思想变革莫过于文艺复兴。11至14世纪,欧洲经济复苏并发展,城市兴起,中南欧的市民和部分知识分子想...

数学之美读书笔记-PageRank-Google的民主表决式网页排名技术

本文转载自PageRank算法简介及Map-Reduce实现 对于大部分用户的查询,今天的搜索引擎,都会返回成千上万条结果,那么,如何排序?总的来讲,对于一个特定的查询,搜索结果排名取决于两组信息,这...

《数学之美》--读书笔记

文字和语言 VS 数字和信息香农-信息论 今天信息科学通信的基本原理是,如果信道较宽,信息不必压缩就可以直接进行传递;如果信道很窄,信息在传递之前要尽可能的压缩,然后在接收端进行解压缩。在古代,两...

《数学之美》读书笔记和知识点总结

文字和数字的起源 很久以前人类以不同的叫声表示不同的信息,达到彼此交流的目的,当所要表达的信息太多时,叫声已经不够用了,于是文字产生了。   文字:知道“罗塞塔”石碑的典故。 信息冗余的重要性...

《数学之美》(吴军 著)读书笔记:第1章 文字和语言 vs 数字和信息

第1章有4个小节,以及前言。 前言 1、信息 2、文字和数字 3、文字和语言背后的数学 4、小结   下面我一一展开,让我们看看每一节都说了什么。 前言   语言和数字都是信息...

读书笔记 --《数学之美》_ 中文分词

《数学之美⋅\cdot第二版》第四章 现在中文分词是一个已经解决的问题,提升的空间微乎其微。不值得再去花很大的精力去做研究 1、中文分词方法的演变 (a.)北航的梁南元教授提出的查字典类似的方法...

《数学之美》读书笔记 (二)

《数学之美》读书笔记 (二)  密码学作为信息传递的一个重要分支,已经有两千多年的历史。无论是凯撒大帝的罗马字母对应表,还是姜太公与周武王的阴符,都体现了密码在信息传递中的重要作用,不过从现代密码...

数学之美》读书笔记和知识点总结(一)

《数学之美》读书笔记和知识点总结(一)   早在前几个月我在台湾的时候,就听说《数学之美》是一本非常不错的书,也正好是我喜欢的类型,一直想买。回到北京之后的第一件事就是把我这半年积攒...
  • pi9nc
  • pi9nc
  • 2013年07月12日 09:52
  • 1480

数学之美读书笔记(四)

Chapter.16信息指纹及其应用 1.信息指纹不可逆,既无法根据它推出原有信息。 2.用信息指纹判断集合是否相同可大大减少运算量(且不占用额外的储存空间) 3.一个视频文件虽然每秒有数帧的图...
  • necrazy
  • necrazy
  • 2013年11月09日 10:43
  • 935
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:《数学之美》读书笔记2
举报原因:
原因补充:

(最多只允许输入30个字)