Apache OpenNLP(二)

二、标记生成器 Tokenizer

        1、 标记化

        OpenNLP令牌器将输入字符序列分段成令牌。 令牌通常是字词,标点符号,数字等。

        以下结果显示了以空格分隔表示的各个标记。

        OpenNLP提供多种tokenizer实现:

            空白标记符 - 空白标记符,非空格序列被标识为标记
            简单令牌 - 字符类记号化器,相同字符类的序列是令牌

            可学习令牌器 - 最大熵令牌器,基于概率模型检测令牌边界

            大多数词性标记器,解析器等都使用以这种方式标记的文本。 重要的是确保您的令牌器生成您的以后的文本处理组件所期望的类型的令牌。

            使用OpenNLP(与许多系统一样),令牌化是一个两阶段过程:首先,识别句子边界,然后识别每个句子内的令牌。

    2、Tokenizer Tools

          尝试令牌化器的最简单的方法是命令行工具。 这些工具仅用于演示和测试。

         有两个工具,一个用于简单令牌器,一个用于可学习令牌器。 用于空白标记器的命令行工具不存在,因为空格分隔的输出将与输入相同。

         以下命令显示如何使用简单标记工具。

         $ opennlp SimpleTokenizer

         要使用可学习的tokenizer从我们的网站下载英语令牌模型。

         $ opennlp TokenizerME en-token.bin

       要测试分词器,将样本从上面复制到控制台。 空格分隔的令牌将被写回控制台。

        通常输入从文件读取并写入文件。

       $ opennlp TokenizerME en-token.bin < article.txt > article-tokenized.txt

        对于Simple Tokenizer,它可以以相同的方式完成。

        由于大多数文本是真正原始的,没有句子边界等,它可能创建一个管道,首先执行句子边界检测和标记化。 下面的例子说明了这一点。

       $ opennlp SentenceDetector sentdetect.model < article.txt | opennlp TokenizerME tokenize.model | more
       Loading model ... Loading model ... done
       done
      Showa Shell gained 20 to 1,570 and Mitsubishi Oil rose 50 to 1,500.
      Sumitomo Metal Mining fell five yen to 692 and Nippon Mining added 15 to 960 .
      Among other winners Wednesday was Nippon Shokubai , which was up 80 at 2,410 .
      Marubeni advanced 11 to 890 .
      London share prices were bolstered largely by continued gains on Wall Street and technical 
      factors affecting demand for London 's blue-chip stocks .
      ...etc...

      当然这一切都在命令行上。许多人通过创建SentenceDetector和Tokenizer对象并在适当时调用他们的方法,直接在Java代码中使用模型。 以下部分将解释如何直接从java使用Tokenizers。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园整体解决方案是响应国家教育信息化政策,结合教育改革和技术创新的产物。该方案以物联网、大数据、人工智能和移动互联技术为基础,旨在打造一个安全、高效、互动且环保的教育环境。方案强调从数字化校园向智慧校园的转变,通过自动数据采集、智能分析和按需服务,实现校园业务的智能化管理。 方案的总体设计原则包括应用至上、分层设计和互联互通,确保系统能够满足不同用户角色的需求,并实现数据和资源的整合与共享。框架设计涵盖了校园安全、管理、教学、环境等多个方面,构建了一个全面的校园应用生态系统。这包括智慧安全系统、校园身份识别、智能排课及选课系统、智慧学习系统、精品录播教室方案等,以支持个性化学习和教学评估。 建设内容突出了智慧安全和智慧管理的重要性。智慧安全管理通过分布式录播系统和紧急预案一键启动功能,增强校园安全预警和事件响应能力。智慧管理系统则利用物联网技术,实现人员和设备的智能管理,提高校园运营效率。 智慧教学部分,方案提供了智慧学习系统和精品录播教室方案,支持专业级学习硬件和智能化网络管理,促进个性化学习和教学资源的高效利用。同时,教学质量评估中心和资源应用平台的建设,旨在提升教学评估的科学性和教育资源的共享性。 智慧环境建设则侧重于基于物联网的设备管理,通过智慧教室管理系统实现教室环境的智能控制和能效管理,打造绿色、节能的校园环境。电子班牌和校园信息发布系统的建设,将作为智慧校园的核心和入口,提供教务、一卡通、图书馆等系统的集成信息。 总体而言,智慧校园整体解决方案通过集成先进技术,不仅提升了校园的信息化水平,而且优化了教学和管理流程,为学生、教师和家长提供了更加便捷、个性化的教育体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值