一个简单的英文分词程序

在实验室接手的第一个任务,写一个英文分词程序,要将形如:Books in tuneBoxes are for Chinese-Children!断为:Book in tune Box are for Chinese child,也就是说要将复数转为单数,将连写的首字母大写的单词分开等等。复数转单数考虑的比较周全了应该,基本囊活了绝大多数情况。根据大写断词上考 虑有些欠妥,比如NEC这样的词显然应该保留,但是这儿会被拆为三个单词。正在试图改进

/**
  * 分词
  *
  * @param source
  *            待分的字符串
  * @return String[]
  */
 public String[] fenci(String source) {
  /* 分隔符的集合 */
  String delimiters = " /t/n/r/f~!@#$%^&*()_+|`1234567890-=//{}[]:/";''''<>?,./''''";

  /* 根据分隔符分词 */
  StringTokenizer stringTokenizer = new StringTokenizer(source,
    delimiters);
  Vector vector = new Vector();

  /* 根据大写首字母分词 */
  while (stringTokenizer.hasMoreTokens()) {
   String token = stringTokenizer.nextToken();
   int index = 0;
   flag1: whil

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值