![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
文章平均质量分 90
烤鱼想睡觉
愿漂泊的人都有酒喝,愿孤独的人都有歌唱。
展开
-
词语在文档中的重要性 -- TF-IDF算法
词语在文档中的重要性 -- TF-IDF算法原创 2015-12-04 22:08:31 · 2611 阅读 · 0 评论 -
HMM学习笔记—001--前向算法(forward algorithm)
整理自博客:从一个实例中学习HMM前向算法HMM在实际应用中主要用来解决3类问题:评估问题 给定观测序列o=o1o2o3⋅⋅⋅oto=o_1 o_2 o_3 ···o_t和模型参数λ=(A,B,π)\lambda=(A, B, \pi),怎么样有效计算这一个观测的概率。(Forward Algorithm,前向算法;Backforward Algorithm,后向算法)解码问题 给定观测序列原创 2016-01-23 16:18:32 · 4843 阅读 · 0 评论 -
HMM学习笔记—002--维特比算法(viterbi algorithm)
参考博客:特比算法(Viterbi Algorithm)HMM模型如下图: 由HMM可知,Day2的天气仅取决于Day1;Day3的天气又只取决于Day2的天气。Day1由于是初始状态,我们分别求: P(Day1-Sunny)=0.63*0.6; P(Day1-Cloudy)=0.17*0.25; P(Day1-Rain)=0.20*0.05; Choose max{ P(Day1-S原创 2016-01-24 15:31:35 · 1682 阅读 · 0 评论 -
读书笔记 --《数学之美》_隐马尔可夫模型
《数学之美⋅第二版》第五章1、通信模型 上图表示了一个典型的通信系统,它包括雅各布森(Roman Jakobson)提出的通信的六个要素(发送者(信息源),信道,接收者,信息,上下文和编码)。 其中,s1,s2,s3,...s_1,s_2,s_3,...表示信息源发出的信号。o1,o2,o3,...o_1,o_2,o_3,...是接受器接收到的信号。通信中的解码就是根究接收到的信号o1,o2原创 2015-12-22 21:49:49 · 1483 阅读 · 0 评论 -
读书笔记 --《数学之美》_ 中文分词
《数学之美⋅\cdot第二版》第四章 现在中文分词是一个已经解决的问题,提升的空间微乎其微。不值得再去花很大的精力去做研究1、中文分词方法的演变 (a.)北航的梁南元教授提出的查字典类似的方法,但是对于稍微复杂的句子就无能为力;额; (b.)20世纪80年代哈工大的王晓龙博士将查字典的方法理论化,发展成最少词数的分词理论,但是没有解决词语的二义性问题; (c.)1990年前后,清华大学的原创 2015-12-22 20:26:45 · 1272 阅读 · 0 评论 -
读书笔记 -- 012_数据挖掘_频繁模式_关联性_相关性_2
FP-增长(Frequent Pattern Growth, FP-growth)算法:发现频繁模式而不产生候选 正如在Apriori算法中看到的,Apriori算法的候选产生-检查方法显著压缩了候选项集的规模,并产生了很好的性能。然而,它可能仍然需要产生大量的候选项集。同时,Apriori算法可能需要重复地扫描整个数据库。 下面介绍一种称作FP-growth的算法。该算法采用完全不同原创 2015-12-19 16:19:37 · 1220 阅读 · 0 评论 -
读书笔记 -- 011_数据挖掘_频繁模式_关联性_相关性_1
概念 频繁模式(frequent pattern):是频繁地出现在数据集中的模式(如项集、子序列或子结构)。频繁模式挖掘搜索给定数据集中反复出现的联系。 支持度(support)和置信度(confidence)是关联规则的两种度量。他们分别反映所发现规则的有用性和确定性。例如: computer=>antivirus_software[support = 2%; c原创 2015-12-15 21:46:02 · 1418 阅读 · 0 评论 -
读书笔记 -- 008_数据挖掘_聚类_基于层次的方法
概述 尽管基于划分的聚类算法满足把对象划分成一些互斥的组群的基本聚类要求,但是在某些情况下,我们希望把数据划分成不同层次的组群,如层次。层次聚类方法(hierarchical clustering method)将数据对象组成层次结构或簇的“树”。 对于数据汇总和可视化,用层次结构的形式表示数据对象是有用的。我们可以很容易地对组织在层次结构中的数据进行汇总或特征化。 这原创 2015-12-14 21:25:18 · 1745 阅读 · 0 评论 -
读书笔记 -- 007_数据挖掘_聚类_基于划分的方法
- - 概述 - - 聚类分析最简单、最基本的版本是划分,它把对象组织成多个互斥的组或簇。为了使得问题说明简洁,我们假定簇的个数作为背景知识给定。这个参数是划分方法的起点。 形式地,给定 n 个数据对象的数据集 D,以及要生成的簇个数 k,划分方法把数据对象组织成 k ( k <= n )个分区,其中每个分区代表一个簇。这些簇的形成旨在优化一个客观划分准则,如基于距离的相异性函数原创 2015-12-12 09:52:04 · 3422 阅读 · 0 评论 -
相似性度量总结
又机器学习中的相似性度量 、 余弦距离、欧氏距离和杰卡德相似性度量的对比分析 整理而成在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。本文的目的就是对常用的相似性度量作一个总结。本文目录: 1. 欧氏距离转载 2015-12-05 20:14:13 · 12944 阅读 · 2 评论