自然语言处理(Hanlp)

最新推荐文章于 2024-08-13 04:19:25 发布

飞腾创客

最新推荐文章于 2024-08-13 04:19:25 发布

阅读量1.9k

点赞数 1

分类专栏：自然语言处理 hanlp 文章标签： Hanlp

本文链接：https://blog.csdn.net/qq_39716220/article/details/91874330

版权

本文详细介绍了自然语言处理技术，并重点探讨了Hanlp库在文本分析、词法分析和句法分析中的应用，揭示了其在实际场景中的高效能和准确性。

摘要由CSDN通过智能技术生成

实例demo类	功能	实例用到的语料	具体使用方向
DemoAtFirstSight	开启调试模式(会降低性能)		模型分词调试
DemoBasicTokenizer	演示基础分词，基础分词只进行基本NGram分词，不识别命名实体，不使用用户词典
DemoChineseNameRecognition	中国人名识别(默认开启人名识别)
DemoCRFLexicalAnalyzer	CRF词法分析器自1.6.6版起模型格式不兼容旧版：CRF模型为对数线性模型,通过复用结构化感知机的维特比解码算法，效率提高10倍。(分词效果与模型(model)相关)
DemoCustomDictionary	演示用户词典的动态增删(动态增加、强行插入) 【词词性词频】 *建议同一词性放在一个文件
DemoCustomNature	演示自定义词性,以及往词典中插入自定义词性的词语（自定义词性可在分词生效，还可插入用户自定义词典）例：词性苹果电脑
DemoDependencyParser	依存句法分析（神经网络句法模型）准确性依赖模型分析句子结构（例：主谓宾）		可用于缩句、提取出一个句子的最简单机构即可（主谓宾）
DemoEvaluateCWS	演示如何正确规范地评测中文分词的准确率： 1、公平公正。训练模块、分词模块、语料库、评测程序全部开源。 2、禁止使用语料库之外的词典及其等价物（词向量等）。 3、试验结果可复现，可通过其他评分脚本校验。	icwb2-data（中文分词语料）
DemoHighSpeedSegment	演示极速分词，基于DoubleArrayTrie实现的词典正向最长分词，适用于“高吞吐量”“精度一般”的场合
DemoIndexSegment	索引分词
DemoJapan