文本挖掘/自然语言处理
SmallCSer
这个作者很懒,什么都没留下…
展开
-
TF-IDF模型的概率解释
转载自cool shell,原文链接:http://coolshell.cn/articles/8422.html#jtss-tsina 信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] … w[k]组成的查询串q,返回一个按查询q和文档d匹配转载 2014-03-12 23:21:45 · 885 阅读 · 0 评论 -
语义分析的一些方法(一)
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or转载 2015-08-11 10:23:48 · 1009 阅读 · 0 评论 -
语义分析的一些方法(三)
3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如SVM等)。图23. 传统图片分类流程图传统方法里,人工特征提取是一个巨大的消耗性工作。而随着深度学习的转载 2015-08-11 10:30:44 · 804 阅读 · 0 评论 -
利用lucene获取tf-idf
package baike;import java.io.File;import java.util.List;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.转载 2016-05-23 20:20:28 · 1940 阅读 · 2 评论 -
Levenshtein(编辑) 距离
http://wdhdmx.iteye.com/blog/13438560.这个算法实现起来很简单1.百度百科介绍:Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出转载 2016-08-04 11:22:38 · 348 阅读 · 0 评论 -
rnn
【深度学习与Theano】LSTM网络-情感分析http://blog.csdn.net/UncleMuses/article/details/50558273文本情感分类(二):深度学习模型http://spaces.ac.cn/archives/3414/原创 2016-12-23 15:54:55 · 441 阅读 · 0 评论 -
使用RNN解决NLP中序列标注问题的通用优化思路
转载自:http://blog.csdn.net/malefactor/article/details/50767711#comments/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 自然语言生成也是转载 2017-01-19 12:03:54 · 533 阅读 · 0 评论 -
BM25算法
BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a docum转载 2017-02-13 14:36:25 · 566 阅读 · 0 评论 -
seq2seq笔记
Learning Phrase Representation using RNN Encode-Decoder for Statistical Machine Translation http://www.zmonster.me/notes/phrase_representation_using_rnn_encoder_decoder.htm TensorFlow中Sequence-to-S转载 2017-03-08 14:48:49 · 656 阅读 · 0 评论 -
4 text classify method of keras
Github代码: Keras样例解析欢迎光临我的博客:https://gaussic.github.io/2017/03/03/imdb-sentiment-classification/(转载请注明出处:https://gaussic.github.io)Keras的官方Examples里面展示了四种训练IMDB文本情感分类的方法,借助这4个Python程序,可以对Ke转载 2017-06-04 18:20:37 · 1103 阅读 · 0 评论 -
Text Generation With LSTM Recurrent Neural Networks in Python with Keras
Recurrent neural networks can also be used as generative models.This means that in addition to being used for predictive models (making predictions) they can learn the sequences of a problem and t转载 2017-06-04 18:33:14 · 960 阅读 · 0 评论 -
simhash与重复信息识别
simhash与重复信息识别在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来转载 2017-09-27 23:17:58 · 306 阅读 · 0 评论 -
局部敏感哈希算法
私认为,文本的相似性可以分为两类:一类是机械相似性;一类是语义相似性。 机械相似性代表着,两个文本内容上的相关程度,比如“你好吗”和“你好”的相似性,纯粹代表着内容上字符是否完全共现,应用场景在:文章去重; 语义相似性代表着,两个文本语义上的相似程度,比如“苹果”和“公司”的相似性,本篇不做这一讨论,可参考笔者的另外一篇博客: NLP︱句子级、词语级以及句子-词转载 2017-10-15 21:36:20 · 16005 阅读 · 2 评论 -
keras text classification
Text Classification, Part I - Convolutional NetworksText Classification, Part 2 - sentence level Attentional RNNText Classification, Part 3 - Hierarchical attention network原创 2017-11-21 21:12:20 · 1148 阅读 · 0 评论 -
语义分析的一些方法(二)
2 文本语义分析前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型,已经有相当多的介绍了,譬如文献[60,64]。在这里,主要想聊一下主题模型的应用以及最新进展(转载 2015-08-11 10:26:03 · 4127 阅读 · 0 评论 -
LDA-math
挖个坑:http://cos.name/?s=LDA转载 2014-07-04 15:54:37 · 497 阅读 · 0 评论 -
【未读】概率语言模型及其变形系列(1)-PLSA及EM算法
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类转载 2014-07-09 16:45:56 · 1044 阅读 · 0 评论 -
文本分类入门(番外篇)特征选择与特征权重计算的区别
在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。文本分类本质上也是一个模式识别转载 2014-03-12 21:05:09 · 555 阅读 · 0 评论 -
词性标注(POS tagging)
词性标注也叫词类标注,POS tagging是part-of-speech tagging的缩写。维基百科对POS Tagging的定义:In corpus linguistics, part-of-speech tagging (POS tagging or POST), also calledgrammatical tagging or word-category disambi转载 2014-03-31 15:48:24 · 4995 阅读 · 0 评论 -
中英文分词及词性标注工具
1.中文分词、词性标注中科院:ictclashttp://www.ictclas.org/sub_1_1.html具体使用方面看他里面的例子及文档很详细。突出功能是分词功能,还有命名实体识别功能。 哈工大信息检索实验室:LTP 语言技术平台http://ir.hit.edu.cn/http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.ht转载 2014-04-01 14:56:34 · 15035 阅读 · 0 评论 -
文本分类入门
转载自:http://www.blogjava.net/zhenandaci/MyPosts.html提纲:文本分类入门(十)特征选择算法之开方检验文本分类入门(九)文本分类问题的分类文本分类入门(八)中英文文本分类的异同 文本分类入门(七)相关概念总结 文本分类入门(六)训练Part 3 文本分类入门(五)训练Part 2文本分类入门(四)训练Part 1转载 2014-04-01 17:14:54 · 1911 阅读 · 1 评论 -
统计语言模型学习笔记
语言模型(Language Model)是描述自然语言内在规律的数学模型。构造语言模型是计算语言学的核心。在实践中,语言模型广泛地用于语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域。 语言模型可分为传统的文法型语言模型和基于统计的语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。为满足这一转载 2014-03-24 17:05:47 · 2481 阅读 · 0 评论 -
语言模型训练工具SRILM
Srilm的全称是Stanford Research Institute Language Modeling Toolkit 。他被用来构建和应用统计语言模型,主要用于语音识别,统计标注和切分,以及机器翻译等工作。 一、windows下编译 ubuntu编译,可以再52nlp中去找。VC编译,可以再下面链接找,http://www.keithv.com/softw转载 2014-03-27 21:17:12 · 2674 阅读 · 0 评论 -
N-gram模型
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串转载 2014-03-24 16:00:45 · 655 阅读 · 0 评论 -
文本特征提取方法研究
原文地址:http://blog.csdn.net/tvetve/article/details/2292111转载 2014-04-09 22:27:12 · 1414 阅读 · 0 评论 -
文本分类入门特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣转载 2014-03-12 21:06:30 · 819 阅读 · 0 评论 -
文本相似度的计算-向量空间模型
在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1在自动归类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度。转载 2014-04-09 21:27:59 · 1027 阅读 · 0 评论 -
文本分类特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带转载 2014-04-09 21:24:50 · 1229 阅读 · 1 评论 -
JGibbLDA
http://jgibblda.sourceforge.net/#_2.3._Input_Data_Format原创 2014-06-26 18:10:34 · 739 阅读 · 0 评论 -
从二项式分布到多项式分布-从Beta分布到Dirichlet分布
yunwen一、前言参数估计是一个重要的话题。对于典型的离散型随机变量分布:二项式分布,多项式分布;典型的连续型随机变量分布:正态分布。他们都可以看着是参数分布,因为他们的函数形式都被一小部分的参数控制,比如正态分布的均值和方差,二项式分布事件发生的概率等。因此,给定一堆观测数据集(假定数据满足独立同分布),我们需要有一个解决方案来确定这些参数值的大小,以便能够利用分布模型来做密度估计。这转载 2014-07-03 11:02:03 · 3129 阅读 · 0 评论 -
语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
原文地址:http://hi.baidu.com/leifenglian/item/cdfdeaea9c3279088c3ea86chttp://blog.csdn.net/yangliuy/article/details/8296481转载 2014-07-03 11:09:35 · 1288 阅读 · 0 评论 -
[未读] 概率语言模型及其变形系列(2)-LDA及Gibbs Sampling
原文地址:http://blog.csdn.net/yangliuy/article/details/8302599转载 2014-07-09 17:44:49 · 742 阅读 · 0 评论 -
[未读] 概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现
原文地址:http://blog.csdn.net/yangliuy/article/details/8457329转载 2014-07-09 17:46:18 · 790 阅读 · 0 评论