
自然语言处理--NLP
文章平均质量分 59
文本分词,文本相似度,文本纠错,文本分类,文本特征提取
东华果汁哥
大家好!我叫赖德发,欢迎您来到我的博客。
展开
-
【深度学习 transformer】理解 Transformer:机器学习界的“变形金刚
想象一下,你在和朋友聊天,突然你发现朋友每次说话都跟你心灵相通,不管你说什么,他都能立刻理解并回应。这种神奇的交流方式就是 Transformer 的魅力所在。Transformer 是一种深度学习模型,专门用来处理序列数据,比如文本、音乐,甚至是天气预报。它的核心是“自注意力机制”,就像你在聚会上注意到的那个发光的家伙,吸引了你的全部注意力。原创 2024-09-20 13:56:06 · 711 阅读 · 0 评论 -
【foolnltk 中文分词】简单好用新的中文分词包
python 中文分词 工具包,如jieba,pkuseg,hanNLP ,下面介绍另外一种新的中文分词工具包foolnltkFoolNLTK — 作者号称“可能不是最快的开源中文分词,但很可能是最准的开源中文分词”。这个开源工具包基于BiLSTM模型训练而成,功能包含分词,词性标注,实体识别。并支持用户自定义词典,可训练自己的模型及批量处理文本。如何安装:pip install foolnltk...原创 2022-04-12 21:25:19 · 1330 阅读 · 0 评论 -
【NLP 自然语言处理】自然语言处理技术难点和挑战
一、**NLP 技术对标注数据依赖性较高,难以在标注数据稀缺的任务、语言或领域内发挥作用。**此前小米首席 NLP 科学家王斌在接受 InfoQ 采访时也曾表示,获得大规模的高质量标注数据永远是个难题。当前主流方法的效果取决于标注数据的规模和质量。为解决这一问题,可以采用基于大规模无监督数据的预训练模型,或者尝试半监督或无监督的方法,包括零样本学习(Zero-Shot Learning)或小样本学习(Few-Shot Learning)方法。二、第二是轻量级优质模型问题。当前的主流模型需要消耗大量资源进原创 2020-10-14 09:15:52 · 5758 阅读 · 0 评论 -
【自然语言处理 文本纠错】10分钟了解下文本纠错框架pycorrector
1、文本纠错包安装:pip install https://github.com/kpu/kenlm/archive/master.zippip install pycorrector注意:必须先安装kenlm包,再安装pycorrector,否则安装失败2、中文文本纠错任务,常见错误类型包括:谐音字词,如 配副眼睛-配副眼镜混淆音字词,如 流浪织女-牛郎织女字词顺序颠倒,如 伍迪艾伦-艾伦伍迪字词补全,如 爱有天意-假如爱有天意形似字错误,如 高梁-高粱中文拼音全拼,如 xing原创 2020-07-09 17:41:04 · 3256 阅读 · 0 评论