排序:
默认
按更新时间
按访问量

EM算法解析

本文介绍EM算法的相关推导过程,同时会介绍混合高斯模型。 1.EM算法 1.1 EM算法的推导 观测数据(不完全数据)X关于参数θ\theta的对数似然函数为: L(θ)=logP(x|θ)=log∑zP(x,z|θ)=log∑z[q(z)P(x,z|θ)q(z)]≥∑zq(z)logP(...

2018-01-21 13:53:23

阅读数:150

评论数:0

机器学习中正则化项L1和L2的直观理解

正则化(Regularization) 原文地址:http://blog.csdn.net/jinping_shi/article/details/52433975 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm,中文称作L1正则化和L2...

2018-01-16 14:02:53

阅读数:63

评论数:0

逐段输出多项式的计算结果

给定一个简单的四则运算的多项式,如果把多项式看作一个字符串,试编写程序,自左向右依次输出每个子字符串所对应的多项式的计算结果。例如给定多项式为:1+23*2+3*3,程序输出结果为:1 3 24 47 50 56 key_list = [str(i) for i in range(1, 10)] ...

2018-01-09 22:16:35

阅读数:57

评论数:0

铺设地板问题--动态规划

有一条长度为N*1米的路,需要铺设地板,地板的规格为1*1米,1*2米,1*3米,各种地板的数量不限。各种规格的地板可以随意组合,试问:一共有多少种铺法? Python代码如下: def get_N(N): list_1 = [0] * N list_2 = [0] * N list...

2018-01-08 09:43:16

阅读数:126

评论数:0

GBK编码详细解析(附GBK码位分布图)

1.GBK码位分布图 2.GBK码位说明     GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其...

2015-07-07 17:30:35

阅读数:1258

评论数:0

C语言文件操作函数小结

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富...

2015-04-23 11:38:41

阅读数:1064

评论数:0

md/mdd/ml/mld/mt/mtd

转自:http://www.cnblogs.com/whiteyun/archive/2011/07/07/2099912.html 1、VC编译选项 多线程 (/MT) 多线程调试 (/MTd) 多线程 DLL  (/MD) 多线程调试 DLL  (/MDd)   2、...

2015-04-21 10:07:59

阅读数:478

评论数:0

Unicode编码的秘密

原文地址:http://blog.sina.com.cn/s/blog_6364576a0100gs7q.html 概念上的澄清:如果有人问你知道不知道unicode呢?你可能会说,我知道,不就是“统一字符编码标准”嘛。对的,你回答的没错,但别人又问你,utf-8是什么呢?你可能会说,ut...

2015-03-11 15:15:54

阅读数:1112

评论数:0

用条件随机场CRF进行字标注中文分词(Python实现)

本文运用字标注法进行中文分词,使用4-tag对语料进行字标注,观察分词效果。模型方面选用开源的条件随机场工具包“CRF++: Yet Another CRF toolkit”进行分词。         本文使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的...

2014-08-13 23:33:28

阅读数:13715

评论数:0

用最大熵模型进行字标注中文分词(Python实现)

同前面的那篇文章一样(参见:最大熵模型进行中文分词),本文运用字标注法进行中文分词,分别使用4-tag和6-tag对语料进行字标注,观察分词效果。前面的文章中使用了模型工具包中自带的一个样例进行4-tag中文分词,但由于其选取的特征是针对英文词性标注开发的,故准确率和召回率较低(召回率为83.7%...

2014-08-09 17:35:18

阅读数:3494

评论数:0

最大熵模型(Maximum Entropy Models)详细分析

由于本篇文章公式较多,csdn博客不允许复制公式,如果将公式一一保存为图片在上传太繁琐了,就用word排好版后整页转为图片传上来了,如有错误之处,欢迎指正。

2014-08-08 11:38:17

阅读数:1130

评论数:0

最大熵模型进行中文分词

本文运用字标注法进行中文分词,最大熵模型方面使用开源的张乐博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)。使用的中文语料资源是SIGHAN提供的backoff 2005语料,目前封闭测试最好的结果是4-tag+CF...

2014-08-08 09:42:30

阅读数:3356

评论数:1

Linux下./configure错误详解

说明: sudo apt-get install  package-name   更新你指定的软件包 sudo apt-get update                           获取更新列表  sudo apt-get dist-upgrade                ...

2014-08-06 15:10:51

阅读数:6952

评论数:0

升级ubuntu中的gcc和g++版本

在利用张乐博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)和条件随机场的经典工具包CRF++(CRF++: Yet Another CRF toolkit)进行分词的时候,发现工具包不能正常安装,从报出的错误推测是gc...

2014-08-05 23:32:38

阅读数:2122

评论数:0

解决 Python.h:没有那个文件或目录 错误的方法

今天在ubuntu机子上安装最大熵模型模型工具包和条件随机场的经典工具包时,出现编译错误。 错误如下: 致命错误: Python.h:没有那个文件或目录 编译中断。 error: Setup script exited with error: command 'gcc' failed ...

2014-08-05 23:30:39

阅读数:3789

评论数:0

VIM显示utf-8文档乱码解决方法

1.相关基础知识介绍         在Vim中,有四个与编码有关的选项,它们是:fileencodings、fileencoding、encoding和termencoding。在实际使用中,任何一个选项出现错误,都会导致出现乱码。因此,每一个Vim用户都应该明确这四个选项的含义。下面,我们详...

2014-08-01 16:29:23

阅读数:7676

评论数:1

二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比

第一部分 引言         关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关;其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设)。HMM是在这两...

2014-08-01 15:15:33

阅读数:2317

评论数:3

N元语法模型的数据稀疏问题解决方法之一:Good-Turing平滑

在统计语言模型章节中,我们谈到了N元语法模型不可避免的一个问题,就是数据稀疏,其原因是大规模语料统计与有限语料的矛盾。根据齐普夫(Zipf)法则,我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多,本文将介绍众多算法中的佼佼者:古德-图灵(Good-Tu...

2014-07-28 20:57:53

阅读数:2784

评论数:0

隐马尔科夫模型(HMM)分词研究

第一部分 模型简介         隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程 ----具有一定状态数的隐...

2014-07-28 20:05:24

阅读数:2087

评论数:5

最大概率法分词及性能测试

最大概率分词是一种最基本的统计方法分词。一个待分割的字符串有多种分词结果,最大概率分词的原则是将其中概率最大的那个作为该字符串的分词结果。 第一部分 理论基础         如对一个字符串:         S:有意见分歧         分词结果1: w1:有/ 意见/ 分歧/   ...

2014-07-19 10:58:17

阅读数:3573

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭