自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

nlpzryyclxz的博客

NLP自然语言处理小组

  • 博客(13)
  • 收藏
  • 关注

原创 英语形态还原

英语单词具有丰富的词形变化(时态的表示,可数名词的复数,形容词比较级最高级等),如果把这些带有词形变化的词都放在词典中,就会使词典规模过大,造成资源浪费。 因此利用形态还原(stemming)把单词还原成词干形式是必要的。同时,在词形还原的过程中还可以获得丰富的 词法信息,这也为句法分析的后续处理提供了重要依据。形态还原(stemming)的方法分为两类 1、规则 Porter算法 2、统计

2015-08-28 09:16:25 529

原创 类Hash结构词典

由于C语言中没有封装好的Hash(Python 字典)或红黑树(C++ STL map)结构, 因此在这里借用Hash的思想,实现了一个类似Hash的三级字典存储结构。实现代码如下/*********************************************************** * File Name : dict.c * Copyrigh

2015-08-28 09:02:03 405

原创 最大概率法分词

优点: 由于最大概率法考虑的是某种字串出现的条件下,最可能划分的词串,因此在拥有大量标注语料的前提下,可以在一定程度上避免切分歧义。原理: 设Z=z1z2…zn表示字串,    W=w1w2…wm表示切分后的词串, 汉语词语切分可以看作是求使P(W|Z)最大的切分。p(W|Z) = P(W)P(Z|W)/P(Z) P(Z)是汉字串的概率,它对于各个候选词串都是一样的,不必考虑。 P(Z|

2015-08-27 10:55:18 3144

原创 有符号数据的表示

计算机中所有数据都是以补码进行存储和运算的原码: 正数的原码符号位为0,负数的原码符号位为1 举例:            符号位             数值位 +7          0                 0000111 -7           1                 0000111反码: 正数的补码为原码,负数的补码与原码符号位不变,数值位取反 举例

2015-08-27 00:52:47 537

原创 数制

一、二进制转其他进制(二进制转二进制拆分组合法) 10110110 (1)八进制 010  110  110   2      6     6 0266 (2)十六进制 1011 0110   b     6  0xb6二、其他进制转十进制(系数*基^权) 0b100 = 1*2^2 + 0*2^1 + 0*2^0 = 4 0100   = 1*8^2 + 0*8^1 + 0*

2015-08-27 00:36:26 333

原创 命名规则

常见的命名规则:见名知义 举例:我要定义一个学生类 class Students {}//好 class S{}//不好 包:其实就是文件夹,用于把相同的类名进行区分 全部小写 单级:liuyi 多级:cn.itcast cn(文件夹) itcast(文件夹) 类或者接口: 一个单词:单词的首字母必须大写 举例:Student,Dog 多个单词:每个单词的首字母必须大写 举例:HelloWorl

2015-08-27 00:12:51 270

原创 字符串参与运算

System.out.println(“hello” + ‘a’ +1);//字符串数据和其他数据作+结果是字符串。这里的+不是加法,而是字符串连接符 helloa1 System.out.println(‘a’ + 1 + “hello”);// 98helloSystem.out.println(“5+5=”+5+5);//5+5=55 System.out.println(5+5+”5

2015-08-27 00:11:33 413

原创 强制转换数据溢出

byte b = 130; byte 的范围为-128到127, 而130不在此范围内,报错。// byte b = (byte)130; System.out.println(b);计算机中的数据的运算都是补码进行的。 首先转二进制 130   A:补(原、反)00000000 00000000 00000000 1000010 B:截取byte 操作补码 1000010这个结

2015-08-27 00:06:57 510

原创 字符运算

记住: ‘a’ 97 ‘A’ 65 ‘0’ 48System.out.println(‘a’); //a System.out.println(‘a’+1);//98

2015-08-26 23:55:36 578

原创 类型转换

(1)float f = (float)12.345; (2)float f = 12.345f; 区别:(1)本是double类型,经过强转,得到foat (2)本身就是foat//定义了三个byte类型的变量,b1,b2,b3 //b1的值是3,b2的值是4, byte b1=3,b2=4,b; b = b1 + b2;//变量相加,先类型提升,再计算。可能损失精度 byte ch

2015-08-26 23:48:25 213

原创 变量使用

1、作用域内不能定义重名变量 2、建议定义变量时初始化 2.1 初始化长整型时后缀用L long j = 100000000L; 2.2 初始化单精度时后缀用f float f = 12.345f;

2015-08-26 23:13:00 298

原创 对于java跨平台的理解

1、Java是一门跨平台的语言 2、Java是通过JVM(Java虚拟机)实现跨平台的 3、JVM不具有跨平台特性,不同操作系统下,需要安装不同的JVM4、JDK(开发环境)>JRE(运行环境)>JVM(跨平台)

2015-08-25 23:38:28 325

原创 常用DOS命令

d:回车 盘符切换 dir(director):列出当前目录下的文件以及文件夹 md:(make directory):创建目录 rd(remove director):删除目录 cd(change director):改变指定目录(进入指定目录) cd .. :退回到上一级目录 cd \ :退回到根目录 del(delete):删除文件,删除一堆后缀名为一样的文件*.txt exi

2015-08-25 21:21:21 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除