实例demo类 | 功能 | 实例用到的语料 | 具体使用方向 |
DemoAtFirstSight | 开启调试模式(会降低性能) | 模型分词调试 | |
DemoBasicTokenizer | 演示基础分词,基础分词只进行基本NGram分词,不识别命名实体,不使用用户词典 | ||
DemoChineseNameRecognition | 中国人名识别(默认开启人名识别) | ||
DemoCRFLexicalAnalyzer | CRF词法分析器 自1.6.6版起模型格式不兼容旧版:CRF模型为对数线性模型,通过复用结构化感知机的维特比解码算法,效率提高10倍。(分词效果与模型(model)相关) |
||
DemoCustomDictionary | 演示用户词典的动态增删(动态增加、强行插入) 【词 词性 词频】 *建议同一词性放在一个文件 | ||
DemoCustomNature | 演示自定义词性,以及往词典中插入自定义词性的词语(自定义词性可在分词生效,还可插入用户自定义词典)例:词性 苹果电脑 | ||
DemoDependencyParser | 依存句法分析(神经网络句法模型) 准确性依赖模型 分析句子结构(例:主 谓 宾) | 可用于缩句、提取出一个句子的最简单机构即可(主谓宾) | |
DemoEvaluateCWS | 演示如何正确规范地评测中文分词的准确率: 1、公平公正。训练模块、分词模块、语料库、评测程序全部开源。 2、禁止使用语料库之外的词典及其等价物(词向量等)。 3、试验结果可复现,可通过其他评分脚本校验。 |
icwb2-data(中文分词语料) | |
DemoHighSpeedSegment | 演示极速分词,基于DoubleArrayTrie实现的词典正向最长分词,适用于“高吞吐量”“精度一般”的场合 | ||
DemoIndexSegment | 索引分词 | ||
DemoJapan |
自然语言处理(Hanlp)
最新推荐文章于 2024-08-13 04:19:25 发布
本文详细介绍了自然语言处理技术,并重点探讨了Hanlp库在文本分析、词法分析和句法分析中的应用,揭示了其在实际场景中的高效能和准确性。
摘要由CSDN通过智能技术生成