自然语言处理--NLP
文章平均质量分 52
文本分词,文本相似度,文本纠错,文本分类,文本特征提取
东华果汁哥
大家好!我叫赖德发,欢迎您来到我的博客。
展开
-
【foolnltk 中文分词】简单好用新的中文分词包
python 中文分词 工具包,如jieba,pkuseg,hanNLP ,下面介绍另外一种新的中文分词工具包foolnltkFoolNLTK — 作者号称“可能不是最快的开源中文分词,但很可能是最准的开源中文分词”。这个开源工具包基于BiLSTM模型训练而成,功能包含分词,词性标注,实体识别。并支持用户自定义词典,可训练自己的模型及批量处理文本。如何安装:pip install foolnltk...原创 2022-04-12 21:25:19 · 1250 阅读 · 0 评论 -
【NLP 自然语言处理】自然语言处理技术难点和挑战
一、**NLP 技术对标注数据依赖性较高,难以在标注数据稀缺的任务、语言或领域内发挥作用。**此前小米首席 NLP 科学家王斌在接受 InfoQ 采访时也曾表示,获得大规模的高质量标注数据永远是个难题。当前主流方法的效果取决于标注数据的规模和质量。为解决这一问题,可以采用基于大规模无监督数据的预训练模型,或者尝试半监督或无监督的方法,包括零样本学习(Zero-Shot Learning)或小样本学习(Few-Shot Learning)方法。二、第二是轻量级优质模型问题。当前的主流模型需要消耗大量资源进原创 2020-10-14 09:15:52 · 5393 阅读 · 0 评论 -
【自然语言处理 文本纠错】10分钟了解下文本纠错框架pycorrector
1、文本纠错包安装:pip install https://github.com/kpu/kenlm/archive/master.zippip install pycorrector注意:必须先安装kenlm包,再安装pycorrector,否则安装失败2、中文文本纠错任务,常见错误类型包括:谐音字词,如 配副眼睛-配副眼镜混淆音字词,如 流浪织女-牛郎织女字词顺序颠倒,如 伍迪艾伦-艾伦伍迪字词补全,如 爱有天意-假如爱有天意形似字错误,如 高梁-高粱中文拼音全拼,如 xing原创 2020-07-09 17:41:04 · 3148 阅读 · 0 评论