![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
文章平均质量分 61
jmschentt
这个作者很懒,什么都没留下…
展开
-
Softmax函数
刚看到一片自然语言模型的文章中提到了Softmax函数,不甚理解,刚好找到一个解释比较好的,转存下!!!相关链接:http://ufldl.stanford.edu/wiki/index.php/Softmax_Regressionsoftmax模型是logistic模型在多分类问题上的推广,logistic 回归是针对二分类问题的,类别标记为{0,1}。假设函数为:代价函数:转载 2016-07-01 15:19:56 · 489 阅读 · 0 评论 -
遗忘算法:算法概述
一、遗忘算法原理能够从未知的事物中发现关联、提炼规律才是真正智能的标志,而遗忘正是使用智能生物具备这一能力的工具,也是适应变化的利器,“遗忘”这一颇具负能量特征的家伙是如何实现发现这么个神奇魔法的呢?让我们从巴甫洛夫的狗说起:狗听到了铃声就知道开饭了。铃声和开饭之间并不存在必然的联系,我们知道之所以狗会将两者联系在一起,是因为巴甫洛夫有意的将两者一次次在狗那儿重复出现。所以,重转载 2016-06-30 14:32:54 · 9002 阅读 · 0 评论 -
word2vec
原创:http://blog.sina.com.cn/s/blog_66a6172c0102v1k9.html在较早的论文“Efficient Estimation of Word Representations in Vector Space”中,Mikolov讨论了Feedforward Neural Net Language Model (NNLM)、Recurrent转载 2016-07-01 17:11:52 · 351 阅读 · 0 评论 -
词权重公式
公式的定义转载 2016-07-04 10:10:26 · 416 阅读 · 0 评论 -
文本相似度计算
一、简介文本相似度是进行文本聚类的基础,和传统的结构化数值数据的聚类方法相似,文本聚类是通过计算文本之间的“距离”来表示文本之间的相似度,并产生聚类。文本相似度的常用计算反法有余弦定理。但是文本数据和普通的数据不同,它是一种半结构化的数据,在进行聚类之前必须要对文本数据源进行处理,如分词、向量化表示等,其目的就是使用向量化的数值来表达这些半结构化的文本数据。使其适用于文本分析。二、TF-I原创 2016-07-04 10:18:18 · 1602 阅读 · 0 评论 -
摘自命名实体识别类论文
一、简介1995年命名实体识别由第六届消息理解会议第一次引入,主要任务是自动识别出文本中出现的命名性指称和有意义的数量短语并加以归类,包括三大类(实体类、时间类、数字类)、七小类(人名、地名、机构名、时间、日期、货币、和百分比),其中时间、日期、货币和百分比的构成有明显的规律,相对容易识别和分类,因此主要针对人名、地名、机构名这三类命名实体开展研究工作。1、命名实体识别在信息抽取中的作用原创 2016-07-04 15:31:46 · 4310 阅读 · 0 评论 -
布朗聚类
算法布朗聚类是一种自底层向上的层次聚类算法,基于n-gram模型和马尔科夫链模型。布朗聚类是一种硬聚类,每一个词都在切只在唯一的一个类中。布朗聚类的输入是一个语料库,这个语料库是一个词序列,输出是一个二叉树,树的叶子节点是一个个词,树的中间节点是类别(中间节点作为根节点的子树上的所有叶子为类中的词)。初始的时候,将每一个词独立分成一类,然后,将两个类合并,使得合并之后评价函数最转载 2016-07-06 15:21:43 · 2725 阅读 · 0 评论 -
汉语命名实体识别训练语料自动构建
一、基于双语平行语料的命名实体训练数据生成1.1 利用现有的高质量的英语命名实体识别系统在篇章级对齐的双语语料的英语端识别出英文命名实体,然后通过词对齐信息将英文命名实体边界和标签映射到汉语端,生成汉语的命名实体标注候选,最后过滤生成汉语命名实体训练语料。(1) 双语对齐:包括句对齐和词对齐a、使用Champollion对篇章级对齐的英汉双语语料进行句子级对齐b、使用G转载 2016-07-05 10:27:45 · 6671 阅读 · 2 评论