自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 概率语言模型 Probabilistic Language Modeling (三) --- 训练工具汇总

This is the Kyoto Language Modeling toolkit (Kylm), a la

2016-03-31 15:28:31 3402

原创 概率语言模型 Probabilistic Language Modeling (二) --- 模型估计算法介绍

1. 缘由–数据稀疏问题假设kk泛指某一事件,N(k)N(k)表示事件kk观察到的频数,极大似然法使用相对频数作为对事件kk的概率估计为p(k)=N(k)Np(k)=\frac{N(k)}{N},在语言模型中,训练语料中大量的事件N(k)=0N(k)=0,这显然没有反映真实情况,这种零值的概率估计会导致语言模型算法的失败。

2016-02-28 23:05:03 3268

原创 概率语言模型 Probabilistic Language Modeling (一) --- 整体简介

1. Introduction语言模型的目标就是compute the probability of a sentence or sequence of words

2016-02-24 15:12:51 2184

原创 中文分词项目(开源/API接口)总结

中文分词项目(开源/API接口)总结

2015-12-23 16:08:14 21538

原创 MITLM 工具包安装及使用

MITLM

2015-12-21 13:38:18 2125

原创 range 和 xrange

range    函数说明:range([start,] stop[, step]),根据start与stop指定的范围以及step设定的步长,生成一个序列。range示例: >>> range(5) [0, 1, 2, 3, 4] >>> range(1,5) [1, 2, 3, 4] >>> range(0,6,2)[0, 2, 4]xrange    函数说明

2015-12-18 22:05:22 376

原创 对音频及语音的一些基本概念理解

近段时间由于项目需求,对音频的一些知识做了一些调研,结合自身对语音相关知识的理解,做一下总结:

2015-12-18 21:48:24 2927

原创 Ubuntu 12.04.5 下安装SRILM1.7.1

Ubuntu 12.04.5 下安装SRILM1.7.1在Linux下安装TCL/TK,可以有编译源代码的方式安装,也可以有直接通过二进制压缩包进行解压缩安装,src下载http://www.tcl.tk/software/tcltk/可以参考这个地方:http://www.tcl.tk/doc/howto/compile.htmlCompiling Tcl on UNIX has two

2015-12-16 11:21:11 1870

原创 python知识点(三):复制(引用、拷贝、浅拷贝和深拷贝)

在平时项目中,我们经常需要对变量或者数组进行复制操作,python内部对于复制操作有着自己一套规定,很多情况下容易发生错误使用的情况。以下对复制操作的一个总结。1) 引用和拷贝(references and copies)当程序中使用赋值操作符=时,对于不可变对象(If the value cannot be modified, the object is said to be i

2015-04-03 15:24:59 464

原创 python知识点(二):replace和re.sub运行效率比较

项目中需要替换字符串,起初使用万能的re.sub,但是在大数据量情况下发现运行速度很慢。两种方法的原型:str.replace(old, new[, max])old -- 将被替换的子字符串。new -- 新字符串,用于替换old子字符串。max -- 可选字符串, 替换不超过 max 次re.sub(pattern, repl, string, count=0,

2015-02-15 11:26:35 7613

原创 Python编解码小结(二)——Python的编解码

本章将继续围绕如何在python下进行编解码问题进行讨论。(一)源代码文件(Source Code Files)的编码关于Python对代码文件的编码处理,Python官网上的Defining Python Source Code Encodings章节有详细描述(https://www.python.org/dev/peps/pep-0263/),现摘录如下python缺省认

2015-02-10 17:56:09 989

原创 Python编解码小结(一)—— Unicode的来龙去脉

历史:上世纪80年代,大部分电脑使用8bit地址存储。8bit空间(即byte)可以存储0到255的数值。ASCII码选择单字节(0-127)数值作为其标准编码区间(即前127个数字来做字符映射), 而剩下的128-255数值变成各团体、组织自定义分配。注:ASCII标准本身就规定了字符和字符编码方式,ASCII既是字符集又是编码方案。随着字符数量需求不断增加,Unicode被提上来了

2015-02-09 17:09:53 577

原创 利用Opencv 3.0源码 + Visual Studio 2013 在window7环境下编译lib及dll

本文主要参照opencv官网中的介绍说明文档,下载源代码对opencv进行编译lib和dll。原文链接 http://docs.opencv.org/doc/tutorials/introduction/windows_install/windows_install.html#windows-installation一)准备环境1> 安装tortoisegit  下载地址https:/

2015-02-02 21:43:54 1022

原创 Python “编辑距离”(Levenshtein distance)函数的比较

本文搜集了网上比较常用的几种计算Levenshtein distance的函数,其中函数(1)为调用数学工具包Numpy, 函数(2)和(1)算法类似,都是采用DP, (3)来自wiki(4)是直接调用python的第三方库Levenshtein源码和结果如下:import timefrom functools import wrapsimport cProfileimp

2015-01-28 18:23:56 15637

原创 python知识点(一):python检测代码效率常用方法

工作中对大数据需要进行处理,发现某个2重循环运行效率很低,搜集试验了2种比较简单方便检测代码效率的方法如下1)装饰器来测量函数的执行时间2)利用库函数cProfile样例如下:import timefrom functools import wrapsimport cProfiledef fn_timer(function): @wraps(func

2015-01-28 16:35:32 743

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除