自然语言处理(Hanlp)

本文详细介绍了自然语言处理技术,并重点探讨了Hanlp库在文本分析、词法分析和句法分析中的应用,揭示了其在实际场景中的高效能和准确性。
摘要由CSDN通过智能技术生成
实例demo类 功能 实例用到的语料    具体使用方向
DemoAtFirstSight   开启调试模式(会降低性能)     模型分词调试
DemoBasicTokenizer 演示基础分词,基础分词只进行基本NGram分词,不识别命名实体,不使用用户词典    
DemoChineseNameRecognition  中国人名识别(默认开启人名识别)    
DemoCRFLexicalAnalyzer CRF词法分析器
自1.6.6版起模型格式不兼容旧版:CRF模型为对数线性模型,通过复用结构化感知机的维特比解码算法,效率提高10倍。(分词效果与模型(model)相关)
   
DemoCustomDictionary 演示用户词典的动态增删(动态增加、强行插入)   【词 词性 词频】  *建议同一词性放在一个文件    
DemoCustomNature 演示自定义词性,以及往词典中插入自定义词性的词语(自定义词性可在分词生效,还可插入用户自定义词典)例:词性 苹果电脑    
DemoDependencyParser 依存句法分析(神经网络句法模型) 准确性依赖模型   分析句子结构(例:主 谓 宾)   可用于缩句、提取出一个句子的最简单机构即可(主谓宾)
DemoEvaluateCWS  演示如何正确规范地评测中文分词的准确率:
  1、公平公正。训练模块、分词模块、语料库、评测程序全部开源。
  2、禁止使用语料库之外的词典及其等价物(词向量等)。
  3、试验结果可复现,可通过其他评分脚本校验。
icwb2-data(中文分词语料)  
DemoHighSpeedSegment 演示极速分词,基于DoubleArrayTrie实现的词典正向最长分词,适用于“高吞吐量”“精度一般”的场合    
DemoIndexSegment 索引分词    
DemoJapan
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

飞腾创客

你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值