关系抽取
TNNAA
这个作者很懒,什么都没留下…
展开
-
实体关系抽取--句子分词
实体关系抽取数据处理之句子分词使用Python的'jieba'库进行中文分词,将数据处理为'[[sentence, [entity1,...], [sentence_seg]], ...]'的格式.然后收集所有分词后的句子,作为语料库使用Python的'word2vec'库训练词向量.为防止实体被错误分词,将所有实体(实体字典的键集合)写入文件'dict.txt'作为用户字典.定义文件'stop_word.txt',在分词过程中对句子去除中文停用词.pool类在使用Python进行系统管理时原创 2020-07-31 14:48:59 · 1001 阅读 · 0 评论 -
超级超级详细的实体关系抽取数据预处理代码详解
超级超级详细的实体关系抽取数据预处理代码详解由于本人是代码小白,在学习代码过程中会出现很多的问题,所以需要一直记录自己出现的问题以及解决办法.废话不多说,直接上代码!!!一.data_process1.由于数据集太大,然鹅本人的电脑…所以,我先添加了一段代码切分了一下数据集,因为数据集中都是三元组形式,所以可以直接笨拙的切分为几个文件2.读取初始数据.读取切分之后的任意一个就OK了,存放为数组形式3.保留元素全为中文的三元组4.构建实体字典,为字典增加key-value对输出结果应原创 2020-07-30 18:57:40 · 3469 阅读 · 2 评论