算法
文章平均质量分 70
perfectzq
你若不坚强,懦弱给谁看!
展开
-
A Text Clustering Algorithm Using an Online Clustering Scheme for Initialization(基于在线聚类策略的文本聚类算法)
一、研究内容 文本聚类广泛的应用于文本的检索,信息的抽取和人名消歧等方面。本文提出了一种基于在线聚类策略的文本聚类算法,即FGSDMM+. 该算法假设语料库中至多有 个潜在的类别,并在算法开始时,认为语料库中真的有 个潜在的类别。初始化过程中,第一个文本选择一个潜在的类别,同时FGSDMM+ 创造一个新的类别去存储这个文本;后来的文本,根据狄利克雷和多项分布的混合模型推原创 2017-04-13 22:26:35 · 2828 阅读 · 0 评论 -
TF-IDF算法
一、TF(Term Frequency)词频 用词频去衡量关键字,会出现一个问题,就是文本中的 “的” 或是 “是”出现的频率会很高,还有就是一些常见的名词的频率也会很高,到是这些并不是我们需要的关键字的,不能代表文本。因此,就需要为词分配一个权重,最常见的给予的权重较小,较少见的给予的权重大。二、逆文档频率(Inverse Document Frequency)IDF原创 2017-04-10 21:30:22 · 419 阅读 · 0 评论 -
基于神经网络语言模型的中文新闻文本聚类算法
一、新闻文本集 其中 通过TF-IDF排序 中的词(由大到小),选择其中的 t 个词作为关键字,,是对应关键字的TF-IDF值。二、神经网络语言模型输入:该词的上下文中相邻的几个词向量(词袋模型)输出:p(wi | context) ,该词的词向量。通过神经网络语言模型,可以得到新闻词集合 W 中每个词 的词向量;也就是得到了关键字集合 中的每个关键原创 2017-04-06 21:26:04 · 5854 阅读 · 2 评论 -
Java版的最长公共子序列
最长公共子序列(LCS)定义:一个数列 S,如果分别是两个或多个已知数列的子序列,且是所有符合此条件序列中最长的,则 S 称为已知序列的最长公共子序列。比如数列A = “abcdef”, B = “adefcb”. 那么两个数列的公共子序列是"adef". 最长公共子序列和最长公共子字符串是有区别的,公共子序列里的元素可以不相邻,但是公共子字符串必须是连接在一起的。比如A和B的公共原创 2016-10-01 10:36:51 · 294 阅读 · 0 评论 -
ROC曲线的理解
ROC曲线的理解和python绘制ROC曲线ROC曲线的理解考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True nega原创 2017-05-18 14:30:44 · 5028 阅读 · 0 评论