一个简单的英文分词程序

本文档介绍了一个英文分词程序,旨在将字符串中的复数形式转换为单数,并按大写首字母进行分词。程序考虑了多种复数到单数的转换规则,但存在如无法正确处理特定缩写词(如NEC)的问题。程序通过StringTokenizer处理分隔符,使用Vector存储分词结果,并进行了复数到单数的转换。
摘要由CSDN通过智能技术生成

在实验室接手的第一个任务,写一个英文分词程序,要将形如:Books in tuneBoxes are for Chinese-Children!断为:Book in tune Box are for Chinese child,也就是说要将复数转为单数,将连写的首字母大写的单词分开等等。复数转单数考虑的比较周全了应该,基本囊活了绝大多数情况。根据大写断词上考 虑有些欠妥,比如NEC这样的词显然应该保留,但是这儿会被拆为三个单词。正在试图改进

/**
  * 分词
  *
  * @param source
  *            待分的字符串
  * @return String[]
  */
 public String[] fenci(String source) {
  /* 分隔符的集合 */
  String delimiters = " /t/n/r/f~!@#$%^&*()_+|`1234567890-=//{}[]:/";''''<>?,./''''";

  /* 根据分隔符分词 */
  StringTokenizer stringTokenizer = new StringTokenizer(source,
    delimiters);
  Vector vector = new Vector();

  /* 根据大写首字母分词 */
  while (stringTokenizer.hasMoreTokens()) {
   String token = stringTokenizer.nextToken();
   int index = 0;
   flag1: whil

使用NLTK(Natural Language Toolkit)进行中文分词一个比较直接的过程。首先需要确保你已经安装了NLTK库以及中文分词的模块,比如`jieba`或者NLTK自带的`Punkt`分词器。下面是一个简单的示例,展示了如何使用NLTK进行中文分词: ```python import nltk from nltk.tokenize import word_tokenize # 如果需要针对中文分词,需要先下载nltk的数据包 nltk.download('punkt') # 给定的中文文本 text = "这是一个示例文本,用于展示NLTK的分词功能。" # 使用word_tokenize进行分词,注意直接用于中文可能会存在问题,需要引入jieba等中文分词库 # 此处仅为展示流程,实际上NLTK的word_tokenize不适用于中文分词,需要安装jieba等中文分词模块 # 可以使用以下命令安装jieba:pip install jieba # from jieba import lcut # words = lcut(text) # 由于NLTK的word_tokenize不适用于中文,这里仅作为一个英文分词的演示 tokenized_text = word_tokenize(text) print(tokenized_text) ``` 注意,上述代码中的`word_tokenize`是为英文分词设计的,对于中文文本,你需要使用如`jieba`这样的专门的中文分词工具。NLTK本身没有提供一个专门的中文分词器,而是通过其生态系统中的第三方模块来实现。 以下是一个使用`jieba`进行中文分词的示例: ```python import jieba text = "这是一个示例文本,用于展示NLTK的分词功能。" words = jieba.lcut(text) print(words) ``` 在使用`jieba`之前,你需要确保它已经被正确安装。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值