一个简单的英文分词程序

本文档介绍了一个英文分词程序,旨在将字符串中的复数形式转换为单数,并按大写首字母进行分词。程序考虑了多种复数到单数的转换规则,但存在如无法正确处理特定缩写词(如NEC)的问题。程序通过StringTokenizer处理分隔符,使用Vector存储分词结果,并进行了复数到单数的转换。
摘要由CSDN通过智能技术生成

在实验室接手的第一个任务,写一个英文分词程序,要将形如:Books in tuneBoxes are for Chinese-Children!断为:Book in tune Box are for Chinese child,也就是说要将复数转为单数,将连写的首字母大写的单词分开等等。复数转单数考虑的比较周全了应该,基本囊活了绝大多数情况。根据大写断词上考 虑有些欠妥,比如NEC这样的词显然应该保留,但是这儿会被拆为三个单词。正在试图改进

/**
  * 分词
  *
  * @param source
  *            待分的字符串
  * @return String[]
  */
 public String[] fenci(String source) {
  /* 分隔符的集合 */
  String delimiters = " /t/n/r/f~!@#$%^&*()_+|`1234567890-=//{}[]:/";''''<>?,./''''";

  /* 根据分隔符分词 */
  StringTokenizer stringTokenizer = new StringTokenizer(source,
    delimiters);
  Vector vector = new Vector();

  /* 根据大写首字母分词 */
  while (stringTokenizer.hasMoreTokens()) {
   String token = stringTokenizer.nextToken();
   int index = 0;
   flag1: whil

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值