wwjiang_ustc-CSDN博客

原创概率语言模型 Probabilistic Language Modeling (三) --- 训练工具汇总

This is the Kyoto Language Modeling toolkit (Kylm), a la

2016-03-31 15:28:31 3402

原创概率语言模型 Probabilistic Language Modeling (二) --- 模型估计算法介绍

1. 缘由–数据稀疏问题假设kk泛指某一事件，N(k)N(k)表示事件kk观察到的频数，极大似然法使用相对频数作为对事件kk的概率估计为p(k)=N(k)Np(k)=\frac{N(k)}{N},在语言模型中，训练语料中大量的事件N(k)=0N(k)=0，这显然没有反映真实情况,这种零值的概率估计会导致语言模型算法的失败。

2016-02-28 23:05:03 3268

原创概率语言模型 Probabilistic Language Modeling (一) --- 整体简介

1. Introduction语言模型的目标就是compute the probability of a sentence or sequence of words

2016-02-24 15:12:51 2184

原创中文分词项目(开源/API接口)总结

中文分词项目(开源/API接口)总结

2015-12-23 16:08:14 21538

原创 MITLM 工具包安装及使用

MITLM

2015-12-21 13:38:18 2125

原创 range 和 xrange

range 函数说明：range([start,] stop[, step])，根据start与stop指定的范围以及step设定的步长，生成一个序列。range示例: >>> range(5) [0, 1, 2, 3, 4] >>> range(1,5) [1, 2, 3, 4] >>> range(0,6,2)[0, 2, 4]xrange 函数说明

2015-12-18 22:05:22 376

原创对音频及语音的一些基本概念理解

近段时间由于项目需求，对音频的一些知识做了一些调研，结合自身对语音相关知识的理解，做一下总结：

2015-12-18 21:48:24 2927

原创 Ubuntu 12.04.5 下安装SRILM1.7.1

Ubuntu 12.04.5 下安装SRILM1.7.1在Linux下安装TCL/TK，可以有编译源代码的方式安装，也可以有直接通过二进制压缩包进行解压缩安装，src下载http://www.tcl.tk/software/tcltk/可以参考这个地方：http://www.tcl.tk/doc/howto/compile.htmlCompiling Tcl on UNIX has two

2015-12-16 11:21:11 1870

原创 python知识点(三)：复制(引用、拷贝、浅拷贝和深拷贝)

在平时项目中，我们经常需要对变量或者数组进行复制操作，python内部对于复制操作有着自己一套规定，很多情况下容易发生错误使用的情况。以下对复制操作的一个总结。1) 引用和拷贝（references and copies）当程序中使用赋值操作符=时，对于不可变对象(If the value cannot be modified, the object is said to be i

2015-04-03 15:24:59 464

原创 python知识点(二)：replace和re.sub运行效率比较

项目中需要替换字符串，起初使用万能的re.sub，但是在大数据量情况下发现运行速度很慢。两种方法的原型：str.replace(old, new[, max])old -- 将被替换的子字符串。new -- 新字符串，用于替换old子字符串。max -- 可选字符串, 替换不超过 max 次re.sub(pattern, repl, string, count=0,

2015-02-15 11:26:35 7613

原创 Python编解码小结（二）——Python的编解码

本章将继续围绕如何在python下进行编解码问题进行讨论。（一）源代码文件(Source Code Files)的编码关于Python对代码文件的编码处理，Python官网上的Defining Python Source Code Encodings章节有详细描述(https://www.python.org/dev/peps/pep-0263/),现摘录如下python缺省认

2015-02-10 17:56:09 989

原创 Python编解码小结（一）—— Unicode的来龙去脉

历史：上世纪80年代，大部分电脑使用8bit地址存储。8bit空间（即byte）可以存储0到255的数值。ASCII码选择单字节（0-127）数值作为其标准编码区间（即前127个数字来做字符映射）, 而剩下的128-255数值变成各团体、组织自定义分配。注：ASCII标准本身就规定了字符和字符编码方式，ASCII既是字符集又是编码方案。随着字符数量需求不断增加，Unicode被提上来了

2015-02-09 17:09:53 577

原创利用Opencv 3.0源码 + Visual Studio 2013 在window7环境下编译lib及dll

本文主要参照opencv官网中的介绍说明文档，下载源代码对opencv进行编译lib和dll。原文链接 http://docs.opencv.org/doc/tutorials/introduction/windows_install/windows_install.html#windows-installation一）准备环境1> 安装tortoisegit 下载地址https:/

2015-02-02 21:43:54 1022

原创 Python “编辑距离”(Levenshtein distance)函数的比较

本文搜集了网上比较常用的几种计算Levenshtein distance的函数，其中函数(1)为调用数学工具包Numpy，函数(2)和(1)算法类似，都是采用DP, (3)来自wiki(4)是直接调用python的第三方库Levenshtein源码和结果如下：import timefrom functools import wrapsimport cProfileimp

2015-01-28 18:23:56 15637

原创 python知识点(一)：python检测代码效率常用方法

工作中对大数据需要进行处理，发现某个2重循环运行效率很低，搜集试验了2种比较简单方便检测代码效率的方法如下1）装饰器来测量函数的执行时间2）利用库函数cProfile样例如下：import timefrom functools import wrapsimport cProfiledef fn_timer(function): @wraps(func

2015-01-28 16:35:32 743

wwjiang_ustc的专栏