![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
leo_fengj
博观约取,厚积薄发
展开
-
分词工具-ansj
Ansj 分词工具如今,自然语言处理技术越来越成熟,越来越得到大家关注。许多互联网公司,如京东,阿里,新美大等互联网公司都有大量的文本评论数据,如何从这些文本中挖掘出有效的信息成为关键,这就需要应用自然语言处理技术,而对文本分词是自然语言处理的第一步,很关键。分词工具有很多NLPIR、IKAnalyzer、stanford nlp等等,本篇博文将介绍我所使用的分词工具 Ansj 的使用。准备工作下原创 2016-11-17 15:18:36 · 1020 阅读 · 0 评论 -
利用编辑距离计算文本相似性
文本相似性编辑距离什么是编辑距离? 看下百度百科的介绍:编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。 比如说: kitten->sitten (k→s) sitten->sittin (e原创 2016-12-22 00:02:44 · 1922 阅读 · 0 评论 -
利用余弦计算文本相似性
余弦相似性余弦的概念对我们来说并不陌生,中学数学就开始接触余弦的概念了,在三角形中,余弦的公式是: cosα=b2+c2−a22bc(式1−1)\begin{equation}cos\alpha=\frac{b^2+c^2-a^2}{2bc}(式1-1)\end{equation}在向量表示的三角形中,假设向量 a⃗ =(x1,y1)\vec{a}=(x_1,y_1) , b⃗ =(x2,y2原创 2016-12-21 23:15:58 · 4086 阅读 · 1 评论 -
word2vct算法实现
本篇文章主要是实现python 自然语言处理包 gensim 中用于词向量建模的 word2vec算法。示例代码如下:# encoding=utf-8import loggingimport sysfrom gensim.models import Word2Vecif __name__ == '__main__': logging.basicConfig(format='%(asctim原创 2017-01-15 14:09:26 · 633 阅读 · 0 评论 -
doc2vct算法实现
本篇文章主要是实现Python 自然语言处理包 gensim 中用于长文本向量建模的 doc2vec算法。示例代码如下:#!/usr/bin/env python3# -*- coding: utf-8 -*-import loggingimport multiprocessingimport os.pathimport sysfrom gensim import utilsfrom g原创 2017-01-15 14:25:48 · 858 阅读 · 0 评论 -
自然语言处理系列之Viterbi算法
前面已经介绍了隐马尔可夫模型,本篇博文主要是介绍用 viterbi 算法来解决 HMM 中的预测问题,也称为解码问题。 维特比算法实际是用动态规划解隐马尔可夫模型预测问题,即用动态规划(dynamic programming)求概率最大路径(最优路径)。这时一条路径对应着一个状态序列。 根据动态规划原理,最优路径具有这样的特性:如果最优路径在时刻t通过(it)∗(i_t)^*,那么这一路原创 2017-04-16 17:37:04 · 4598 阅读 · 0 评论 -
自然语言处理系列之隐马尔可夫模型(HMM)
定义 设QQ是所有可能的状态的集合,V是所有可能的观测的集合。 Q={q1,q2,...,qN},V={v1,v2,...,vM}Q=\{q_1,q_2,...,q_N\},V=\{v_1,v_2,...,v_M\} 其中,NN是可能的状态数,MM 是可能的观测数。 状态qq是不可见的,观测vv是可见的。应用到词性标注系统,词就是vv,词性就是qq。 II是长度为TT的状态序列,OO是对应原创 2017-04-16 17:33:48 · 2212 阅读 · 0 评论 -
自然语言处理系列之TF-IDF算法
TF-IDF算法TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇文章中找到它的关键词。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文原创 2016-12-16 23:55:39 · 26319 阅读 · 4 评论 -
tensorflow 常见问题
记录在使用 tensorflow 框架开发代码时遇到的问题,会不间断更新。1. ‘TFOptimizer’ object has no attribute ‘lr’问题描述:在使用 ReduceLROnPlateau 做学习率衰减时,出现以下问题:问题原因,在使用优化器时使用的 tf 自带的 Adam 优化器(tf.train.AdamOptimizer),该优化器无 lr 属性,改为 t...原创 2019-01-25 18:16:55 · 882 阅读 · 0 评论