一个简单的英文分词程序

最新推荐文章于 2024-07-21 13:46:14 发布

ruixj

最新推荐文章于 2024-07-21 13:46:14 发布

阅读量2.6k

点赞数

分类专栏：基于java的开发文章标签： token string vector books 文档任务

本文链接：https://blog.csdn.net/ruixj/article/details/856769

版权

本文档介绍了一个英文分词程序，旨在将字符串中的复数形式转换为单数，并按大写首字母进行分词。程序考虑了多种复数到单数的转换规则，但存在如无法正确处理特定缩写词（如NEC）的问题。程序通过StringTokenizer处理分隔符，使用Vector存储分词结果，并进行了复数到单数的转换。

摘要由CSDN通过智能技术生成

在实验室接手的第一个任务，写一个英文分词程序，要将形如：Books in tuneBoxes are for Chinese-Children!断为：Book in tune Box are for Chinese child，也就是说要将复数转为单数，将连写的首字母大写的单词分开等等。复数转单数考虑的比较周全了应该，基本囊活了绝大多数情况。根据大写断词上考虑有些欠妥，比如NEC这样的词显然应该保留，但是这儿会被拆为三个单词。正在试图改进

/**
* 分词
*
* @param source
*            待分的字符串
* @return String[]
*/
public String[] fenci(String source) {
  /* 分隔符的集合 */
  String delimiters = " /t/n/r/f~!@#$%^&*()_+|`1234567890-=//{}[]:/";''''<>?,./''''";

  /* 根据分隔符分词 */
  StringTokenizer stringTokenizer = new StringTokenizer(source,
    delimiters);
  Vector vector = new Vector();

  /* 根据大写首字母分词 */
  while (stringTokenizer.hasMoreTokens()) {
   String token = stringTokenizer.nextToken();
   int index = 0;
   flag1: whil