nlp
文章平均质量分 74
LZH_12345
这个作者很懒,什么都没留下…
展开
-
HMM(隐马尔科夫模型)
一、定义从定义可以看出,隐马尔可夫模型做了两个基本假设:二、 隐马尔可夫模型的三要素:初始状态概率矩阵、状态转移概率矩阵A、观测概率矩阵 B 三、隐马尔科夫的3个基本问题 3.1 概率计算算法3.1.1 直接计算法-------理论上可行,但计算量过大,而不可行3.1.2 前向算法首先,定义前向概率:对于隐马尔可夫模型, 观测序列O,输出P...原创 2018-10-18 22:59:18 · 992 阅读 · 0 评论 -
jieba分词源码分析
jieba分词中文分词:源码地址:https://github.com/fxsjy/jieba其特点: 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支...原创 2018-08-15 18:16:18 · 933 阅读 · 1 评论 -
隐马尔可夫模型(HMM)和 jieba分词源码的理解
在理解隐马尔可夫模型(HMM)时,看到的很好的博客,记录一下:1. 隐马尔可夫模型(HMM) - 1 - 基本概念:http://blog.csdn.net/xueyingxue001/article/details/514357282.隐马尔可夫模型(HMM) - 2 - 概率计算方法:https://blog.csdn.net/xueyingxue001/article/details...原创 2018-08-15 17:21:04 · 4018 阅读 · 0 评论 -
n-gram语言模型及平滑算法
一、n-gram模型概念n-gram模型也称为n-1阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前面n-1个词相关,可以表示为: 当n取1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率P(Wi|Wi-n+1,...,Wi-1)。假设词表的大小...原创 2018-10-09 23:24:53 · 5766 阅读 · 2 评论 -
隐马尔科夫算法之实现简易版的拼音输入法代码详解
这段时间了解了隐马尔科夫算法,然后拼音输入法的核心就是HMM,然后从github上找了一个输入法实现的代码来更透彻的理解算法,本文代码来源:https://github.com/LiuRoy/Pinyin_Demo,如果侵权,请联系我删除!!!一、 拼音输入法的原理概述1.主要原理动态规划,用的是维特比算法实现的2. 模型3. 算法原理 Y1,...,Yn为输入的拼音...原创 2018-11-03 18:32:51 · 2254 阅读 · 0 评论 -
SRILM的安装
一、 SRILM 的介绍 SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。SRILM用来构建和应用统计语言模型,主要用于语音识别,统计标注和切分,以及机器翻译,可运行在UNIX及Windows平台上。它主要包含以下几个部分: 一组实现的语言模型、...原创 2018-11-14 16:43:29 · 1029 阅读 · 0 评论 -
LTP和THULAC的安装与分词工具的使用
LTP分词工具使用说明:提前准备:1. LTP项目文件 :ltp-3.4.0.tar.gz2. LTP模型文件 :ltp_data_v3.4.0.zip分别将上述文件进行解压:执行命令:tar -zxv -f ltp-3.4.0.tar.gz ,解压后的文件为 ltp-3.4.0执行命令:unzip ltp_data_v3.4.0.zip ,解压后的文件为 ltp_data_v3....原创 2018-11-22 14:16:19 · 2392 阅读 · 0 评论