2017年12月_lpty

原创最大熵模型

一、概念1、信息熵信息论定义了信息熵，用以表示人们对客观事件不确定性的度量。信息熵考虑随机变量的所有可能取值，即所有可能发生事件带来的信息量的期望： H(X)=∑ni=1pilog(1pi)=E(log(1pi))H(X)=\sum_{i=1}^np_ilog(\frac{1}{p_i})=E(log(\frac{1}{p_i})) 信息熵表示了一个不确定事件的所有可能状态所提供的信息量，信息熵

2017-12-26 19:33:11 1010

原创词性标注：中文词性标注简介

一、概述1、什么是词性？词性（part-of-speech）是词汇基本的语法属性，通常也称为词性。2、什么是词性标注？词性标注（part-of-speech tagging）,又称为词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或者其他词性的过程。3、为什么要标注？词性标注是很多NLP任务的预处理步骤，如句法分析...

2017-12-25 16:31:04 35941 2

原创分词：基于HMM的中文分词模型实现

一、前言本文主要是实现了一个纯粹的HMM中文分词模型，关于中文分词可以参考：中文分词。分词的基本思想与该文基本一致，请确保已经了解分词的基本知识。二、实战1、语料源语料来源于Bakeoff 2005的主页，这里选用了icwb2-data.rar语料，大概介绍如下：* /icwb2-data.rar/training/msr_training.txt 用以训练HMM，其中

2017-12-22 10:33:36 8130 4

原创维特比算法

一、前言之前介绍过马尔科夫模型（参考），提到马尔科夫的三个基本问题：1、概率计算问题2、学习问题3、预测问题这三个问题里面，比较常见是预测问题，也称为解码。在上面链接的文章里谈到有关这个问题的中文分词模型，下面给出一些解法。二、基本介绍1、概率模型我们知道隐马尔科夫模型是一个概率模型，概率模型的基本思想可以参考：语言模型。传统的概率统计模型自由参数数目随着序列长

2017-12-21 19:42:14 2037

原创情感极性：基于fasttext的情感极性判断模型实现

一、前言本模型主要基于京东评论数据进行训练，相关参考如下：1、什么是fasttext？2、什么是情感极性？3、中文分词与jieba4、数据来源二、实战1、语料处理语料处理方面，使用jieba分词，添加自定义词典进行分词： def __load_user_dict(cls): """ 加载用户词典 """

2017-12-14 16:33:10 5410 4

原创 fasttext的简单介绍

一、前言fasttext是Facebook AI Reserch在16年开源的一个词向量及文本分类工具。在模型架构上跟word2vec非常相似，毕竟作者都是Tomas Mikolov。其实从另一种角度理解，fasttext算是word2vec的一种衍生模型。fasttext的两篇基础论文，更像是提出了一些技巧，来更好的训练词向量和进行分类。关于word2vec的可以参考：对word2v

2017-12-12 20:06:02 7093

原创词向量：对word2vec的理解

一、词向量在自然语言处理中，需要把自然语言转化为计算机可以理解的形式，一般采用向量空间模型（VSM）进行表示，在这里就是词向量。1、one-hot词向量在中文处理中，将分词的结果经过降噪等预处理后，选择出来的特征在进行权重计算时，采用布尔权重，就能够得到one-hot词向量。从表现形式上来看，向量的长度是词典的大小V，同时它的分量只有一个是1，其他全是0，1的位置对应词在词典中的索

2017-12-11 16:07:21 10908

原创 Hffman Tree

一、概念1、什么是Huffman Tree？又称赫夫曼树、霍夫曼树、哈夫曼树、最优二叉树等，是一类带权路径长度最短的树。2、路径与路径长度从树中一个结点到另一个结点之间的分支构成这两个结点之间的路径，路径上的分支数目称做路径长度。3、树的路径长度树的路径长度是从树根到没一个结点的路径长度之和。4、树的带权路径长度树的带权路径长度为树中所有叶子节点的带权路径长度之和。

2017-12-11 10:55:43 876

原创词向量：语言模型

一、统计语言模型1、什么是统计语言模型？一个语言模型通常构建为字符串s的概率分布p(s)，这里的p(s)实际上反映的是s作为一个句子出现的概率。这里的概率指的是组成字符串的这个组合，在训练语料中出现的似然，与句子是否合乎语法无关。假设训练语料来自于人类的语言，那么可以认为这个概率是的是一句话是否是人话的概率。2、怎么建立统计语言模型？对于一个由T个词按顺序构成的句子，p(s)实

2017-12-07 21:44:55 3146

原创情感极性：关于中文情感分类的知识

一、文本分类1、什么是文本分类？文本分类，就是在预定义的分类体系下，根据文本的特征（内容或属性），将给定文本与一个或多个类别相关联的过程。2、文本分类的具体步骤？（1）构建分类类别体系（2）获取带有类别标签的文本（3）文本的特征选择及权重计算（4）分类器的选择与训练（5）文本的分类应用3、类别体系一般的文本分类基于文本内容，将文本自动划分为政治、经济、军事、

2017-12-06 16:55:36 7449

原创分词：浅谈中文分词与jieba源码

一、前言1、什么是中文分词？中文文本。从形式上看是由汉字、标点符号等组成的一个字符串。由字组成词，再组成句子、文章等。那么分词，就是按照一定的规则把字符串重新组合成词序列的过程。2、为什么要分词？（1）在中文里面，词是最小的能够独立活动的有意义的语言成分（2）英文中单词以空格作为自然分界，虽然也有短语划分的问题。但中文词没有一个形式上的分界，相对而言难度大了许多（3）分词作

2017-12-01 20:56:14 3422

lpty的博客