python,自然语言处理
文章平均质量分 79
HGlyh
这个作者很懒,什么都没留下…
展开
-
利用bert4keras实现多任务学习
使用bert4keras实现多任务学习的例子原创 2022-09-06 11:07:59 · 1068 阅读 · 6 评论 -
置信学习寻找噪音样本(noisy label)在NLP任务中的实践
置信学习寻找噪音样本(noisy label)在NLP任务中的实践原创 2022-05-06 11:43:09 · 2496 阅读 · 13 评论 -
基于Prompt的MLM文本分类 bert4keras实现
基于Prompt的MLM文本分类 bert4keras实现原创 2021-10-17 15:58:39 · 2281 阅读 · 22 评论 -
基于深度主动学习的命名实体识别的代码实现及实验
在很多问题中,获取标注准确的大量数据需要很高的成本,这也往往限制了深度学习的应用。而主动学习通过对未标注的数据进行筛选,可以利用少量的标注数据取得较高的学习准确度。本文将提供代码实现,展示实验效果及一些思考。代码地址:https://github.com/hgliyuhao/ActiveLearing4NER参考论文:Deep Active Learning for Named Entity Recognition 2018Subsequence Based De...原创 2021-07-07 10:24:31 · 1974 阅读 · 8 评论 -
『2021语言与智能技术竞赛』- 关系抽取任务 pipline方案
『2021语言与智能技术竞赛』- 关系抽取任务 pipline方案本文的代码地址https://github.com/hgliyuhao/LIC2021_EE_baseline任务描述信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。事件抽取的目标是对于给定的自然语言句子,根据预先指定的事件类型和论元角色,识别句子中所有目标事件类型的事件,并根据相应的论元角色集合抽取事件所对应的论元。其中目标事件类型 (event_type) 和论元角色 (role) 限定...原创 2021-05-31 14:08:12 · 1525 阅读 · 8 评论 -
『2021语言与智能技术竞赛』- 关系抽取任务 官方baseline bert4keras实现
『2021语言与智能技术竞赛』- 关系抽取任务 官方的baseline是将关系抽取任务转换成序列标注任务,使用Paddle实现。 本文将提供bert4keras的实现本文的代码地址https://github.com/hgliyuhao/LIC2021_EE_baseline可以参考的其他baseline关系抽取官方baseline:https://aistudio.baidu.com/aistudio/projectdetail/1639963苏神关系抽取baseline:http..原创 2021-03-26 15:04:48 · 1664 阅读 · 2 评论 -
bert4keras使用中的一些问题
bert4keras.__version__ = 0.10.0如何定位tokenizer后的实体位置?frombert4keras.tokenizersimportTokenizerdict_path= 'D:/Ai/model/electra-small/vocab.txt'tokenizer=Tokenizer(dict_path,do_lower_case=True)token_ids,segment_ids=tokenizer.encode(text,max...原创 2021-03-24 09:57:40 · 1589 阅读 · 3 评论 -
用bert4keras实现 span-level NER
用bert4keras实现 span-level NER什么是span-level NERspan-level NER 是一种应对嵌套实体任务的方法,基于片段排列的方式,提取所有可能的片段排列,通过SoftMax对每一个Span进行实体类型判断,将原来的序列标注问题转化成分类问题数据集 百度2020比赛的数据集https://pan.baidu.com/s/1Va3AbtPiNiW4tXsNGWOqfA 提取码 vu02思路举个例子,针对下面的case:《邪少兵王》是冰...原创 2021-01-26 14:31:22 · 3515 阅读 · 32 评论 -
使用python更精确的解析PDF文件
最近的工作主要是对一些pdf格式的非结构化数据,通过自然语言处理,机器学习的算法提取出结构化的数据。其中对PDF文件中的文本信息提取,是整个工程中的基础,直接决定了整个算法抽取的效果。本文会分享一些工作中的尝试。PDF转TXTpip install pdfminer3k使用pdfminer...原创 2020-12-21 14:14:12 · 942 阅读 · 0 评论 -
尝试用bert做文本聚类
尝试用bert做文本聚类以前文本聚类多以TF-IDF构建词权重的方法进行,在本文中尝试用bert提取的向量做文本聚类。对于bert模型,尝试提取不同层的特征,尝试对bert做fun-tune,观察相应特征对应的文本聚类的效果数据数据使用的是百度2020语言比赛的数据,该数据是标注并分类好的,所以在聚类的情况下,省去了聚类时对k值的搜索,同时可以可以根据标注好的数据和聚类得到的数据比较,从侧面评价聚类的效...原创 2020-06-14 19:22:38 · 13669 阅读 · 39 评论 -
Windows环境 tensorflow 2.1 安装及问题解决
Windows环境 tensorflow 2.1 安装及问题解决特殊时期,中国加油,武汉加油!TensorFlow 2.1.0 正式发布后 它是支持Python 2的最后一个TF版本在使用pip安装时也和之前的版本有一定的区别,下面将介绍安装过程,及安装过程中可能遇到的问题1. 使用pip install tensorflow,现在pip默认安装的是GPU支持的版...原创 2020-02-04 19:44:44 · 9288 阅读 · 9 评论 -
Python与自然语言处理搭建环境
搭建自然语言处理环境,Python、NLTK、NLTK-Data的安装原创 2017-11-29 17:12:07 · 759 阅读 · 0 评论 -
使用NLTK对中文文本进行简单分析
本文会介绍nltk自带中文语料库的使用,用nltk分析自己中文语料的方法,以及在应用过程中python3.x与python2代码不同的问题。原创 2017-12-08 20:10:39 · 4024 阅读 · 1 评论