自然语言处理
林林同學
要得到你想要的某样东西,最好的办法是让你自己配得上它。
展开
-
自然语言处理之Bag-of-words,TF-IDF模型
Bag-of-words,TF-IDF模型Bag-of-words model (BoW model)忽略文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文档,近年来BoW 模型被广泛应用于计算机视觉中,与应用于文本的BoW 类比,图像的特征(feature)被当作单词(Word)。 应用于文本的BoW modelJohn likes to watch movies. Mary原创 2017-12-23 17:45:34 · 10931 阅读 · 2 评论 -
文本主题提取
主题关键词:能够体现文本内容主题的关键词 一、TF-IDF模型 词频(TF)= 某个词在文本中出现的次数/该文本中总词数 或者一种变种的计算方法 词频(TF)= 某个词在文本中出现的次数/该文本中出现次数最多的词其出现的次数 逆向文档频(IDF)= log(语料库中所有文档总数/(包含某词的文档数+1)) 注意 - 为了避免分母为0,所以在分母上加1 - 所指的词个数,一定原创 2018-01-13 15:33:46 · 15194 阅读 · 0 评论 -
基于主题模型的聚类算法
基于主题模型的聚类算法是假定数据的分布是符合一系列的概率分布,用概率分布模型去对数据进行聚类,而不是像层次聚类和划分聚类那样基于距离来进行聚类。因此,模型的好坏就直接决定了聚类效果的好坏。目前比较常用的基于主题聚类算法有LDA和PLSA等,其中LDA是PLSA的一个“升级”,它在PLSA的基础上加了Dirichlet先验分布,相比PLSA不容易产生过拟合现象,LDA是目前较为流行的用于聚类的主题模原创 2018-01-22 15:31:53 · 4367 阅读 · 0 评论 -
词干提取(stemming)和词形还原(lemmatization)
词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类 重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。目标一致。词干提取和词形还原的目标均为将词的屈折形态或派生形态简化或归并为词干(stem)或原形的基础形式,都转载 2018-01-15 15:21:42 · 18594 阅读 · 0 评论