自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

计算语言学概论/俞士汶主编.北京:商务印书馆,2003

  信息检索   信息提取    一般而言,信息抽取系统进行的工作是这样一个计算机程序系统,这个系统的输入时非受限的文本,系统按照用户的预期,从文本中提取出用户预先指定的某些类型的信息。实质上,信息抽取系统进行的工作是从非结构化的文本中提取结构化的信息。     信息提取系统的应用价值在:(1)情报收集;(2)科技文献监控;(3)医疗保健服务;(4)商业信息提取。其中...

2010-04-17 17:05:41 546

如何在分割后保留分隔符?

问题:如何在分割后保留分隔符? 对中文字符串,用标点符号(如!?:;等)作为分隔符,使用string.split()方法,具体代码如下: /********************************************************** * 给段落分句:以句号。、感叹号!、问号?、冒号:、分号;为句子标识符 * @param String paragraph * @return...

2009-10-18 19:34:43 1184

原创 java正则表达式

众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。 大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配的一...

2009-10-18 19:31:09 80

原创 Java编程技术中汉字问题的分析及解决

在基于 Java 语言的编程中,我们经常碰到汉字的处理及显示的问题。一大堆看不懂的乱码肯定不是我们愿意看到的显示效果,怎样才能够让那些汉字正确显示呢?Java语言默认的编码方式是UNICODE,而我们中国人通常使用的文件和数据库都是基于GB2312或者BIG5等方式编码的,怎样才能够恰当地选择汉字编码方式并正确地处理汉字的编码呢?本文将从汉字编码的常识入手,结合Java编程实例,分析以上两...

2009-10-16 11:18:49 95

原创 逐行读取文本文件

public List<String> readFile(final String filename) throws IOException       {           List<String> filecon = new ArrayList<String>();           String m = "";           BufferedRe...

2009-10-16 11:15:08 103

原创 String和InputStream的转换

1. String --> InputStream InputStream String2InputStream(String str){    ByteArrayInputStream stream = new ByteArrayInputStream(str.getBytes());    return stream; } 2. InputStream --&...

2009-10-16 11:12:32 86

原创 计算语言学和自然语言信息处理研究和应用综述(二)

四、语言资源的建设 在自然语言信息处理领域,语言资源指的是语料库和语言知识库。前者收录原始的语言材料,后者收录的是反映语言内部结构规律和言语过程认知规律的知识。1998年-2002年期间,国内有许多科研力量投入了这两类项目中。4.1  语料库经过科学选材、具有适当规模的语料库能够反映和记录语言的实际使用情况,为语言学研究和应用提供统计数据和各种语言材料。譬如词典编纂,以往收...

2009-04-14 23:16:17 515

原创 计算语言学和自然语言信息处理研究和应用综述(一)

http://ling.cass.cn/yingyong/courses/nlpbase.htm 一、概述        计算语言学和自然语言信息处理研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思;后者从要表...

2009-04-14 22:39:26 734

《中国支付体系发展报告(2009)》

中国人民银行支付结算司《中国支付体系发展报告(2009)》

2011-05-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除