读论文
寂寞灵魂
这个作者很懒,什么都没留下…
展开
-
今日论文笔记
一、《基于hash算法的中文分词研究》2007 二、《基于文本挖掘的聚类算法研究》2011 三、《基于词典的汉语自动分词算法的改进》2006 论文一:汉语中4字以上的词已很少了,此论文说了一个4重的hash表、词次字记录结构,词索引表和词典组成的算法。 论文二:比较了K-means聚类算法和K-medoids聚类算法,证明后者较好。 论文三:我看到它带了“改进”二字,可能是很老的原创 2015-11-04 21:11:43 · 378 阅读 · 0 评论 -
提取关键短语tutorial笔记
这是《AutomaticKeyphrase Extraction:A Survey of the State of th Art》一文的笔记。 影响短语提取的四个要素 1. 短语的长度 2. 文档结构的一致性 3. 文章主题的变化性 4. 短语之间主题的关联性 短语提取方法 短语提取的步骤: 1. 提取出候原创 2016-10-07 16:10:04 · 3090 阅读 · 0 评论 -
读论文 + 总结 + 笔记
日常笔记summarized here。 《Thumbs up?Sentiment Classification using Machine Learning Techniques》2002年 这篇文章只是简单的把一篇文档里的词的数量组成一个特征向量来表示该文档。 情感分类的特征选取对分类正确率的影响: unigrams比bigrams的效果好“特征是否出现”比“特征频率”原创 2016-07-20 20:13:29 · 1295 阅读 · 0 评论 -
nine great statistics papers
GUEST POST: ROB TIBSHIRANI Today we have a guest post by my good friend Rob Tibshirani. Rob has a list of nine great statistics papers. (He is too modest to include his own papers.) Have a look and原创 2016-04-01 14:45:31 · 408 阅读 · 0 评论 -
看论文
看了一些论文:《汉语自动句法分析的理论和方法》、 《词语位置加权TextRank的关键词抽取研究》、 《利用统计量和语言学规则提取多字词表达》、 《基于超图的文本摘要与关键词协同抽取研究》、 《基于最大熵的依存句法分析》、 《基于序列标注的中文依存句法分析方法》、 《中文维基百科的实体分类研究》。 第一篇论文是句法分析的一个Tutorial。 TextRank由Pa原创 2016-04-01 10:46:46 · 1067 阅读 · 0 评论 -
《基 于 N Gram 的无词典 中文分词算法》 n-gram读感
二元的叫bigram,三元的叫trigram。 以bigram来说: (1) Average(k) > Average(k 一1) &Average(k) > A verage(k + 1) ; 或者 (2 ) A verage(k) > = t, t是词边界 阀值 《基 于 N Gram 的无词典 中文分词算法》读来看,每次要选四个字:fre(co ) > fre(D J ) ? fr原创 2015-11-26 15:50:14 · 2787 阅读 · 0 评论 -
《自然语言处理技术在中文全文检索中的应用》笔记
全文检索技术 全文检索 是一种面向全文和提供全文的检索技术, 其核心技术是将文档中所有基本元素的出现信息记录到索引库中, 检索时允许用户采用自然语言表达其检索需求, 并借助截词、邻词等匹配方法直接查阅文献原文信息, 最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础, 它以特定的结构存储了数据资源的全文信息, 从而为全文检索系统提供可检索的数据对象。 自原创 2015-11-02 15:32:23 · 2180 阅读 · 0 评论 -
《中文分词算法研究》
看完了才发现作者是经济管理学院的。 这是篇08年的论文。 目前国内外对于中文分词的主要研究成果分为以下几种:正向最大匹配法、反向最大匹配方法、分词与词性标注一体化方法、最佳匹配法、专家系统方法、最少分词词频选择方法、神经网络方法等。 ICTCLAS( Institute of Computing Technology, Chinese Lexical Analysis System)是由中国原创 2015-11-02 16:02:01 · 502 阅读 · 0 评论 -
刚才读《基于Lucene的中文自然语言搜索引擎》后感
原文链接 这篇论文是对Lucene对中文的分词器不是很好而做的改进,做了一个基于词典的分词器。我看完后感觉他大体上就是这个内容了,当然做这个改进要做一些工作,可是它给我的感觉是好像不用有很高大上的idea才能发期刊,这篇论文给了我信心吧。至于读后的收获没什么,因为我前几天一周之前就了解了下Lucene。原创 2015-10-27 21:22:14 · 961 阅读 · 0 评论 -
《K-means聚类算法研究综述》笔记
K-Means聚类算法是一个NP难优化问题,无法获得global optimize,K-Means算法是一个贪心算法。 步骤: 1、选定初始聚类中心 2、根据数据对象与这些聚类中心的欧式距离,按距离最近的准则将他们分配给与其最形似的聚类中心所属的类 3、计算J(C)值 4、若J(C)值不未发生改变,则聚类结束,否则跳到步骤2 经典K-Means目标函数: 他选取原创 2015-11-07 19:23:12 · 1158 阅读 · 0 评论 -
Dialog System 总结
http://blog.csdn.net/abcjennifer/article/details/53428053转载 2016-12-14 21:42:27 · 386 阅读 · 0 评论