自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 用条件随机场CRF进行字标注中文分词(Python实现)

本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“CRF++: Yet Another CRF toolkit”进行分词。        本文使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的结果是4-tag+CFR标注分词,在北大语料库上可以在准确率,召回率以及F值上达到92%以上的效果,在

2014-08-13 23:33:28 27208

原创 用最大熵模型进行字标注中文分词(Python实现)

同前面的那篇文章一样(参见:最大熵模型进行中文分词),本文运用字标注法进行中文分词,分别使用4-tag和6-tag对语料进行字标注,观察分词效果。前面的文章中使用了模型工具包中自带的一个样例进行4-tag中文分词,但由于其选取的特征是针对英文词性标注开发的,故准确率和召回率较低(召回率为83.7%,准确率为84.1%)。 PS:为什么用作词性标注的特征也可以用来做分词呢?这是因为最大熵模型处理

2014-08-09 17:35:18 8159

原创 最大熵模型(Maximum Entropy Models)详细分析

由于本篇文章公式较多,csdn博客不允许复制公式,如果将公式一一保存为图片在上传太繁琐了,就用word排好版后整页转为图片传上来了,如有错误之处,欢迎指正。

2014-08-08 11:38:17 3158

转载 Linux下./configure错误详解

说明:sudo apt-get install  package-name   更新你指定的软件包sudo apt-get update                           获取更新列表 sudo apt-get dist-upgrade                  开始更新./configure的问题错误: C compiler cannot c

2014-08-06 15:10:51 34494 2

原创 升级ubuntu中的gcc和g++版本

在利用张乐博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)和条件随机场的经典工具包CRF++(CRF++: Yet Another CRF toolkit)进行分词的时候,发现工具包不能正常安装,从报出的错误推测是gcc的版本较低,上述工具包发布于2011年,推测使用了较新的C++11标准。我们知道C++11标准开始支

2014-08-05 23:32:38 2831

转载 解决 Python.h:没有那个文件或目录 错误的方法

今天在ubuntu机子上安装最大熵模型模型工具包和条件随机场的经典工具包时,出现编译错误。错误如下:致命错误: Python.h:没有那个文件或目录编译中断。error: Setup script exited with error: command 'gcc' failed with exit status 1 解决方法是安装python-dev,这是Python的头

2014-08-05 23:30:39 6787 1

原创 VIM显示utf-8文档乱码解决方法

1.相关基础知识介绍        在Vim中,有四个与编码有关的选项,它们是:fileencodings、fileencoding、encoding和termencoding。在实际使用中,任何一个选项出现错误,都会导致出现乱码。因此,每一个Vim用户都应该明确这四个选项的含义。下面,我们详细介绍一下这四个选项的含义和作用。        (1)encoding

2014-08-01 16:29:23 26633 1

原创 二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比

第一部分 引言        关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关;其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设)。HMM是在这两个假设的前提下解决各种各样的问题的。       对于第二个假设,我们不去讨论它。现在来看第一

2014-08-01 15:15:33 5403 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除