随笔
文章平均质量分 60
Treasure_Z
这个作者很懒,什么都没留下…
展开
-
《数学之美》读书笔记1
关于搜索引擎 1.自动下载互联网的所有网页——网络爬虫 先介绍两个概念,广度优先搜索(Breadth-First Search,BFS)和深度优先搜索(Depth-First Search,DFS)。BFS是指尽可能“广”地访问与每个节点直接相连的其他节点,DFS是一条路走到黑。 搜索引擎的网络爬虫更应该定义成“如何在有限的时间里最多地爬下最重要的网页”。在各个网站中最重要的网页肯定是首页,所原创 2016-08-27 20:39:45 · 829 阅读 · 0 评论 -
《数学之美》读书笔记2
关于文本分类,以新闻分类为例。可以利用上一篇中提到的用于计算网页和查询相关性的TF-IDF来构造特征向量,对于一篇新闻中的所有实词,计算出它们的TF-IDF来构造特征向量。对于一篇新闻中的所有实词,计算出它们的TF-IDF值,把这些值按照对应的实词在词汇表中的位置依次排序,就得到一个向量,用这个向量来代表这篇新闻。用余弦定理来计算两篇新闻之间的相似度,余弦值越小表示两篇新闻越相似。分类方法: 1.原创 2016-08-28 14:44:11 · 644 阅读 · 0 评论 -
《数学之美》读书笔记3
重要的数学模型1.隐含马尔可夫模型 马尔可夫假设:随机过程中各个状态St的概率分布只与它的前一个状态St-1有关。 符合这个假设的随机过程称为马尔可夫过程,也称为马尔可夫链。 隐含马尔可夫模型是上述马尔可夫链的一个扩展:任一时刻t的状态St是不可见的。但是,隐含马尔可夫模型在每个时刻t会输出一个符号Ot,而且Ot跟St有关,且仅与St有关,这个被称为独立输出假设。 隐含马尔可夫模型的结构如下原创 2016-08-28 16:15:13 · 715 阅读 · 0 评论