DL4J中文文档/语言处理/Tokenization

最新推荐文章于 2024-04-20 15:40:50 发布

bewithme

最新推荐文章于 2024-04-20 15:40:50 发布

阅读量584

点赞数

分类专栏： AI

AI 专栏收录该内容

137 篇文章 7 订阅

订阅专栏

什么是分词?

分词是将文本分解成单个单词的过程。单词窗口也是由词组成。 Word2Vec还可以输出文本窗口，这些文本窗口包括用于输入神经网络中的训练示例，如本文所见。

示例

下面是一个用DL4J工具进行分词的例子：

     //带有词形还原，词性标注，句子分割的分词
     TokenizerFactory tokenizerFactory = new UimaTokenizerFactory();
     Tokenizer tokenizer = tokenizerFactory.tokenize("mystring");

      //迭代
      while(tokenizer.hasMoreTokens()) {
      	   String token = tokenizer.nextToken();
      }
      
      //得到词的整个列表
      List<String> tokens = tokenizer.getTokens();

上面的代码段创建了一个能够词干提取的分词器。

在Word2Vec中，那是创建词汇表的推荐方法，因为它避免了各种词汇上的巧合，例如同一名词的单数和复数被计算为两个不同的单词。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bewithme

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DL4J中文文档/语言处理/Tokenization

什么是分词?分词是将文本分解成单个单词的过程。单词窗口也是由词组成。 Word2Vec还可以输出文本窗口，这些文本窗口包括用于输入神经网络中的训练示例，如本文所见。示例下面是一个用DL4J工具进行分词的例子： //带有词形还原，词性标注，句子分割的分词 TokenizerFactory tokenizerFactory = new UimaTokenizerFa...
复制链接

扫一扫