关闭

GBK编码详细解析(附GBK码位分布图)

1.GBK码位分布图 2.GBK码位说明     GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。全部编码分为三大部分: ...
阅读(1084) 评论(0)

C语言文件操作函数小结

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl...
阅读(498) 评论(0)

md/mdd/ml/mld/mt/mtd

转自:http://www.cnblogs.com/whiteyun/archive/2011/07/07/2099912.html 1、VC编译选项 多线程 (/MT) 多线程调试 (/MTd) 多线程 DLL  (/MD) 多线程调试 DLL  (/MDd)   2、C 运行时库...
阅读(423) 评论(0)

Unicode编码的秘密

原文地址:http://blog.sina.com.cn/s/blog_6364576a0100gs7q.html 概念上的澄清:如果有人问你知道不知道unicode呢?你可能会说,我知道,不就是“统一字符编码标准”嘛。对的,你回答的没错,但别人又问你,utf-8是什么呢?你可能会说,utf-8就是unicode。这个回答就不够准确了。Unicode和ASCII、GB2312一样...
阅读(886) 评论(0)

用条件随机场CRF进行字标注中文分词(Python实现)

本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“CRF++: Yet Another CRF toolkit”进行分词。         本文使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的结果是4-tag+CFR标注分词,在北大语料库上可以在准确率,召回率以及F值上达到92%以上的效果,在...
阅读(8417) 评论(0)

用最大熵模型进行字标注中文分词(Python实现)

同前面的那篇文章一样(参见:最大熵模型进行中文分词),本文运用字标注法进行中文分词,分别使用4-tag和6-tag对语料进行字标注,观察分词效果。前面的文章中使用了模型工具包中自带的一个样例进行4-tag中文分词,但由于其选取的特征是针对英文词性标注开发的,故准确率和召回率较低(召回率为83.7%,准确率为84.1%)。 PS:为什么用作词性标注的特征也可以用来做分词呢?这是因为最大熵模型处理...
阅读(2208) 评论(0)

最大熵模型(Maximum Entropy Models)详细分析

由于本篇文章公式较多,csdn博客不允许复制公式,如果将公式一一保存为图片在上传太繁琐了,就用word排好版后整页转为图片传上来了,如有错误之处,欢迎指正。...
阅读(981) 评论(0)

最大熵模型进行中文分词

本文运用字标注法进行中文分词,最大熵模型方面使用开源的张乐博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)。使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的结果是4-tag+CFR标注分词,在北大语料库上可以在准确率,召回率以及F值上达到92%以上的效果,在微软语料库上可以到达...
阅读(2361) 评论(1)

Linux下./configure错误详解

说明: sudo apt-get install  package-name   更新你指定的软件包 sudo apt-get update                           获取更新列表  sudo apt-get dist-upgrade                  开始更新 ./configure的问题 错误: C compiler cannot c...
阅读(4620) 评论(0)

升级ubuntu中的gcc和g++版本

在利用张乐博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)和条件随机场的经典工具包CRF++(CRF++: Yet Another CRF toolkit)进行分词的时候,发现工具包不能正常安装,从报出的错误推测是gcc的版本较低,上述工具包发布于2011年,推测使用了较新的C++11标准。我们知道C++11标准开始支...
阅读(1890) 评论(0)

解决 Python.h:没有那个文件或目录 错误的方法

今天在ubuntu机子上安装最大熵模型模型工具包和条件随机场的经典工具包时,出现编译错误。 错误如下: 致命错误: Python.h:没有那个文件或目录 编译中断。 error: Setup script exited with error: command 'gcc' failed with exit status 1 解决方法是安装python-dev,这是Python的头...
阅读(2991) 评论(0)

VIM显示utf-8文档乱码解决方法

1.相关基础知识介绍         在Vim中,有四个与编码有关的选项,它们是:fileencodings、fileencoding、encoding和termencoding。在实际使用中,任何一个选项出现错误,都会导致出现乱码。因此,每一个Vim用户都应该明确这四个选项的含义。下面,我们详细介绍一下这四个选项的含义和作用。         (1)encoding...
阅读(4826) 评论(1)

二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比

第一部分 引言         关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关;其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设)。HMM是在这两个假设的前提下解决各种各样的问题的。        对于第二个假设,我们不去讨论它。现在来看第一...
阅读(1855) 评论(3)

N元语法模型的数据稀疏问题解决方法之一:Good-Turing平滑

在统计语言模型章节中,我们谈到了N元语法模型不可避免的一个问题,就是数据稀疏,其原因是大规模语料统计与有限语料的矛盾。根据齐普夫(Zipf)法则,我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多,本文将介绍众多算法中的佼佼者:古德-图灵(Good-Turing)平滑算法。         古德-图灵(Good-Turing)估计法是很多平滑技术的...
阅读(1724) 评论(0)

隐马尔科夫模型(HMM)分词研究

第一部分 模型简介         隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程 ----具有一定状态数的隐马尔可夫链和显示随机函数集。自20 世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90...
阅读(1532) 评论(5)
90条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:95317次
    • 积分:1763
    • 等级:
    • 排名:千里之外
    • 原创:72篇
    • 转载:18篇
    • 译文:0篇
    • 评论:14条
    文章分类
    最新评论