- 博客(8)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
计算语言学概论/俞士汶主编.北京:商务印书馆,2003
信息检索 信息提取 一般而言,信息抽取系统进行的工作是这样一个计算机程序系统,这个系统的输入时非受限的文本,系统按照用户的预期,从文本中提取出用户预先指定的某些类型的信息。实质上,信息抽取系统进行的工作是从非结构化的文本中提取结构化的信息。 信息提取系统的应用价值在:(1)情报收集;(2)科技文献监控;(3)医疗保健服务;(4)商业信息提取。其中...
2010-04-17 17:05:41 546
如何在分割后保留分隔符?
问题:如何在分割后保留分隔符? 对中文字符串,用标点符号(如!?:;等)作为分隔符,使用string.split()方法,具体代码如下: /********************************************************** * 给段落分句:以句号。、感叹号!、问号?、冒号:、分号;为句子标识符 * @param String paragraph * @return...
2009-10-18 19:34:43 1184
原创 java正则表达式
众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。 大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配的一...
2009-10-18 19:31:09 80
原创 Java编程技术中汉字问题的分析及解决
在基于 Java 语言的编程中,我们经常碰到汉字的处理及显示的问题。一大堆看不懂的乱码肯定不是我们愿意看到的显示效果,怎样才能够让那些汉字正确显示呢?Java语言默认的编码方式是UNICODE,而我们中国人通常使用的文件和数据库都是基于GB2312或者BIG5等方式编码的,怎样才能够恰当地选择汉字编码方式并正确地处理汉字的编码呢?本文将从汉字编码的常识入手,结合Java编程实例,分析以上两...
2009-10-16 11:18:49 95
原创 逐行读取文本文件
public List<String> readFile(final String filename) throws IOException { List<String> filecon = new ArrayList<String>(); String m = ""; BufferedRe...
2009-10-16 11:15:08 103
原创 String和InputStream的转换
1. String --> InputStream InputStream String2InputStream(String str){ ByteArrayInputStream stream = new ByteArrayInputStream(str.getBytes()); return stream; } 2. InputStream --&...
2009-10-16 11:12:32 86
原创 计算语言学和自然语言信息处理研究和应用综述(二)
四、语言资源的建设 在自然语言信息处理领域,语言资源指的是语料库和语言知识库。前者收录原始的语言材料,后者收录的是反映语言内部结构规律和言语过程认知规律的知识。1998年-2002年期间,国内有许多科研力量投入了这两类项目中。4.1 语料库经过科学选材、具有适当规模的语料库能够反映和记录语言的实际使用情况,为语言学研究和应用提供统计数据和各种语言材料。譬如词典编纂,以往收...
2009-04-14 23:16:17 515
原创 计算语言学和自然语言信息处理研究和应用综述(一)
http://ling.cass.cn/yingyong/courses/nlpbase.htm 一、概述 计算语言学和自然语言信息处理研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思;后者从要表...
2009-04-14 22:39:26 734
如何在用string.split方法分割中文字符串后保留分隔符?
2009-10-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人