自然语言处理
文章平均质量分 60
tuqinag
这个作者很懒,什么都没留下…
展开
-
jieba中的分词方法
jieba中的分词方法最近刚好在看一些自然语言处理方面的东西,写的一些代码中也用到了jieba这个库,感觉从效果上来说还是可以的。就顺便把分词这一块的代码也给看了(关键词抽取部分的代码已经在之前的博客中提过了),接下来跟大家分享下其中的一些方法。首先是入口函数:re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)", re.U)原创 2017-01-26 10:39:10 · 1627 阅读 · 0 评论 -
关键词抽取与自动文摘
关键词抽取与自动文摘在自然语言处理中对于关键词抽取与自动文摘这两个主题,有着多种多样的方式去解决它们,这里将介绍一种叫做TextRank的方法,就可以解决这两个问题。我将结合具体的代码,试图将算法解释地更加清楚些。论文『TextRank: Bringing Order into Texts』中首次提出了TextRank方法,如果想全面了解下这个方法,还是仔细看下这篇论文。当你一看到TextRank这原创 2017-01-26 10:42:59 · 4370 阅读 · 0 评论 -
非负矩阵分解
非负矩阵分解(Non-Negative Matrix Factorization)这个问题是我在进行文本的主题提取时遇到的。处理的矩阵是文本数据的tf-idf矩阵。如果你使用的词向量,也可以是词向量经过组合之后得到的矩阵。我们的目标是要对这个矩阵进行因式分解,即找到两个更小的矩阵,使得二者相乘以得到原来的矩阵。该矩阵分解的特殊之处就在于,它要求两个小矩阵中的元素都是非负的。这个要求在特定的问题中是有原创 2017-01-26 10:44:22 · 1244 阅读 · 0 评论 -
隐式语义分析
隐式语意分析隐式语义分析(Latent Semantic Analysis,LSA),也被称为隐式语义索引(Latent Semantic Indexing,LSI),是一种不同于关键词检索的搜索引擎解决方案,其检索结果的实际效果更接近于人的自然语言,在一定程度上能够提高搜索结果的相关性。原始方法的缺点从自然语言的角度,大部分词具有一词多义的特点,机器无法确定在何环境下使用何种词义,这就导致了搜索结原创 2017-01-26 10:45:54 · 4809 阅读 · 1 评论