自然语言处理(NLP)
文章平均质量分 85
NLP
音无八重
懒宅
展开
-
人工标签不准确的一种解决方案:PCA降维可视化筛选正样本
在标签不准确情况下的一种简单标签修正方法原创 2023-11-22 15:15:42 · 251 阅读 · 0 评论 -
pytorch BiLSTM+CRF模型实现NER任务
本次实现BiLSTM+CRF模型的数据来源于DataFountain平台上的“产品评论观点提取”竞赛,数据仅用来做模型练习使用,并未参与实际竞赛评分。竞赛地址:产品评论观点提取1. 数据分析数据分为测试集数据7528条,测试集数据(未统计)。测试集数据共有四个属性,分别是:ID号,文本内容,BIO实体标签,class分类本次比赛的任务一共分为两部分,第一部分是NER部分,采用BIO实体标签作为训练参考,另一部分为文本分类,目前只做了NER部分,因此暂时只针对NER部分讲解。测试集原创 2021-12-16 15:09:30 · 5668 阅读 · 3 评论 -
隐马尔科夫模型HMM和条件随机场CRF公式笔记
本笔记是根据李宏毅的HMM/CRF课做的,在学习之前已了解过相关的概念,不了解的可以看上一篇文章:隐马尔可夫模型HMM笔记——HMM原理介绍、python hmmlearn库的使用一、隐马尔可夫模型HMM在已知HMM的基本概念和两个假设后,这里给一个形象一点的例子。如下图所示,如果要产生一个句子,根据HMM理论,我们首先给出一个词性的序列作为隐含序列:“PN V D N”,PN表示人名,V表示动词,D表示冠词,N是名词。那么根据已有的隐含序列,可以写出“John saw the ...原创 2021-11-27 18:41:10 · 2703 阅读 · 0 评论 -
隐马尔可夫模型HMM笔记——HMM原理介绍、python hmmlearn库的使用
隐马尔可夫模型HMM是序列标注模型最基础的一种,由字构词是序列标注模型的一种应用。序列标注指的就是给定一个序列x=x1x2…xn,找出序列中每个元素对应标签y=y1y2…yn,其中y所有可能的取值集合称为标注集(在NLP,x通常是字符或词语,y则是待预测的组词角色或词性等标签)。例如,输入一个自然数序列,输出它们的奇偶性。中文分词、词性标注以及命名实体识别,都可以转化为序列标注问题。本文按照隐马尔可夫模型需要的理论来逐步讲解HMM,基础知识(比如随机过程)大概理解一下就好,因为理论知识是循序渐进的,原创 2021-09-28 19:15:27 · 4509 阅读 · 0 评论